spark的压缩和数据序列化.pptx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
朱佳 目录0102Hadoop如何启用压缩Spark的压缩和数据序列化 Hadoop如何启用压缩1 Hadoop如何启用压缩可以使用Hadoop中的几个编解码器来压缩(和解压缩)数据。编解码器是Com-pressionCodec类的实现,可以在core-site.xml文件中通过设置属性pression. codecs指定合适的压缩编解码器。例如,在core-site.xml文件中通过设置SnappycompressionCodec实现类来指定Snappy压缩。 Hadoop如何启用压缩由于在默认情况下未启用压缩,因此必须在mapred-site.xml文件中将这两个参数都设置为true来启用压缩。press:压缩中间map输出。press:压缩MapReduce作业输出press参数确定map输出在通过网络发送之前是否应该被压缩,此参数的默认值为press参数确定作业输出是否应该被压缩,在默认情况下该参数被设置为false。 Hadoop如何启用压缩如果不频繁处理存储的数据,并且压缩因子很高,或者数据以压缩格式到达,则最好压缩该数据。如果使用的压缩格式(如Snappy),其解压缩速度相当高,也最好压缩数据。因为数据支出一个小的压缩开销,但收益很多。另一方面,如果只能获得微薄的好处冗余度不是很高,且压缩数据不是可拆分格式,则使用压缩可能得不偿失。 Spark的压缩和序列化2 Spark的压缩和序列化Spark自带了与压缩相关的配置参数。例如,可以在发送广播变量之前压缩广播变量,方法是设置press属性(默认值为true)。Spark允许使用pression.codec属性压缩内部数据,例如RDD分区、广播变量和shuffle输出。Spark提供三种编解码器:lz4、lzf和Snappy(默认)。在指定编解码器时,可以选择使用完全限定类名。 Spark的压缩和序列化数据的原始形式是比特序列或流。当从外部源发送数据到HDFS时,将数据以这种原始形式通过网络传输并存储在磁盘上。序列化是将结构化数据转换为其底层原始形式的过程,而反序列化是从原始形式重建结构化数据的相反过程。选择了正确的文件格式类型后,还可以选择所需的序列化类型。Hadoop 使用可写界面对数据进行序列化和反序列化。Hadoop的序列化比Java序列化更紧凑,因此更高效。可以将任何类型的可选序列化框架与MapReduce作业集成。许多框架都能使数据序列化和反序列化更加紧凑和快速。 Spark的压缩和序列化通常,序列化和反序列化(SerDe)用于在Hive表读取和写入数据。SerDe模块位于数据的文件格式和Hive表中行的对象表示之间。以下总结了序列化和反序列化的工作原理:序列化:Row Object =Serializer =key,value = OutputFormat = HDFS File反序列化:HDFS File =InputFileFormat =key,value =Deserializer =Row Object

文档评论(0)

中小学K12教育 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档