spark的压缩和数据序列化.pptx

下载文档

0
0
约1.28千字
约 11页
2023-06-01 发布于安徽
举报
版权申诉
保障服务

spark的压缩和数据序列化.pptx

1、本文档共11页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

朱佳目录0102Hadoop如何启用压缩Spark的压缩和数据序列化 Hadoop如何启用压缩1 Hadoop如何启用压缩可以使用Hadoop中的几个编解码器来压缩（和解压缩）数据。编解码器是Com-pressionCodec类的实现，可以在core-site.xml文件中通过设置属性pression. codecs指定合适的压缩编解码器。例如，在core-site.xml文件中通过设置SnappycompressionCodec实现类来指定Snappy压缩。 Hadoop如何启用压缩由于在默认情况下未启用压缩，因此必须在mapred-site.xml文件中将这两个参数都设置为true来启用压缩。press：压缩中间map输出。press：压缩MapReduce作业输出press参数确定map输出在通过网络发送之前是否应该被压缩，此参数的默认值为press参数确定作业输出是否应该被压缩，在默认情况下该参数被设置为false。 Hadoop如何启用压缩如果不频繁处理存储的数据，并且压缩因子很高，或者数据以压缩格式到达，则最好压缩该数据。如果使用的压缩格式（如Snappy），其解压缩速度相当高，也最好压缩数据。因为数据支出一个小的压缩开销，但收益很多。另一方面，如果只能获得微薄的好处冗余度不是很高，且压缩数据不是可拆分格式，则使用压缩可能得不偿失。 Spark的压缩和序列化2 Spark的压缩和序列化Spark自带了与压缩相关的配置参数。例如,可以在发送广播变量之前压缩广播变量，方法是设置press属性（默认值为true)。Spark允许使用pression.codec属性压缩内部数据，例如RDD分区、广播变量和shuffle输出。Spark提供三种编解码器：lz4、lzf和Snappy（默认）。在指定编解码器时，可以选择使用完全限定类名。 Spark的压缩和序列化数据的原始形式是比特序列或流。当从外部源发送数据到HDFS时，将数据以这种原始形式通过网络传输并存储在磁盘上。序列化是将结构化数据转换为其底层原始形式的过程，而反序列化是从原始形式重建结构化数据的相反过程。选择了正确的文件格式类型后，还可以选择所需的序列化类型。Hadoop 使用可写界面对数据进行序列化和反序列化。Hadoop的序列化比Java序列化更紧凑，因此更高效。可以将任何类型的可选序列化框架与MapReduce作业集成。许多框架都能使数据序列化和反序列化更加紧凑和快速。 Spark的压缩和序列化通常，序列化和反序列化（SerDe）用于在Hive表读取和写入数据。SerDe模块位于数据的文件格式和Hive表中行的对象表示之间。以下总结了序列化和反序列化的工作原理：序列化：Row Object =Serializer =key，value = OutputFormat = HDFS File反序列化：HDFS File =InputFileFormat =key，value =Deserializer =Row Object