精彩解密大数据之精绝古城.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
精彩解密大数据之精绝古城

精彩解密大数据之精绝古城Avro schema作为大数据一个项目,它可以算得上精品中的上等品,让学习或者想要学习大数据的人为之倾倒,不断挖掘学习,那么它究竟有着怎样的神秘面纱呢?我们一起来揭开!为了理解Avro,首先要理解序列化。序列化是在内存里表述数据的一种方式,它是一连串的字节,可以保存数据到磁盘或通过网络发送出去,反序列化允许你把数据读回到内存。举个实际的例子,我们如何序列化数字108125150?可以指定一些具体类型:(1)当存储为Java int类型时是4 bytes;(2)当存储为Java string类型时是9 bytes.很多编程语言和库都支持序列化,比如Java里的Serializable或Python的pickle。但是向后兼容和交叉语言支持对我们来讲可能是一项挑战,而Avro就是开发出来应对这些挑战。什么是Apache AvroAvro数据文件格式只是Avro项目的一部分,它是高效的数据序列化框架,是由Doug Cutting创立的Apache顶级项目,在Hadoop和它的生态系统得到广泛的支持。最大的特点就是在不牺牲性能的前提下提供兼容性,可在Java、C、C++、C#、Python、PHP和其他语言中读写数据。Avro也支持Remote Procedure Calls(RPC),可以用于构建定制网络协议,而且Flume使用它进行内部通信。Avro Schemas支持的类型(1)简单类型:复杂类型这里record类型最重要,其他类型主要用来定义record的字段。基本schema示例这里我们先引用一段SQL CREATE TABLE语句然后我们使用Avro schema来表达同样的语句在Schema里指定默认值Avro支持在schema里设置默认值,当没有明确指定字段值的时候使用,和SQL相似Avro Schemas和Null值(1)当序列化数据时Avro检查null值(2)当在schema里明确指定时才可以使用Null值复杂类型的schema示例示例:带enum和string array类型的record注释schema给schema加注释是一种避免歧义的好的做法(1)所有的类型都支持加上可选的doc属性Avro容器格式Avro定义了一种容器文件格式来存储Avro记录,也称为“Avro数据文件格式”。和Hadoop SequenceFile格式相似,支持交叉语言的数据读写。它也支持块记录的压缩,压缩后数据可分片。另外这种格式是自描述的,每个文件包含一份schema的拷贝,用于写数据,并且所有记录在文件中必须使用相同的schema。使用Avro工具检查Avro数据文件Avro数据文件是一种高效存储数据的方式,然而,二进制格式使得debug很不方便。使用avro-tools命令来操作二进制文件,可以读取Avro文件里的schema或数据。大数据作为当下还在不断完善发展的技术,需要每一位想要从事和已经从事它的人员不断去学习和积累,更需要去交流和分享,共同进步。“大数据cn”是我平时自己在自主学习过程中找到微信服务号,里面介绍的关于大数据的知识以及大数据发展的一些行业知识都很不错,平常大家可以看看。

文档评论(0)

wuyoujun92 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档