网站大量收购独家精品文档,联系QQ:2885784924

CarbonData华为开发并支持Hadoop的列式文件格式.PDF

CarbonData华为开发并支持Hadoop的列式文件格式.PDF

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
CarbonData华为开发并支持Hadoop的列式文件格式.PDF

CarbonData:华为开发并支持Hadoop的列式文件格式 Spark大数据博客 - CarbonData:华为开发并支持Hadoop的列式文件格式 CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、 压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询 。目前该项目正处于Apache孵化过程中。 为什么重新设计一种文件格式 目前华为针对数据的需求分析主要有以下5点要求: 1、支持海量数据扫描并取其中几列; 2、支持根据主键进行查找,并在压秒级响应; 3、支持在海量数据进行类似于OLAP的交互式查询,并且查询中涉及到许多过滤条件,这种 类型的workload应该在几秒钟内响应; 4、支持快速地抽取单独的记录,并且从该记录中获取到所有列信息; 5、支持HDFS,这样客户可以利用现有的Hadoop集群。 目前现有的Hadoop生态系统中没有同时满足这五点要求文件格式。比如Parquet/ORC的文 件仅仅满足第一和第五条要求,而其他的要求无法满足,所以基于这些事实华为开始开发Carbon Data。 CarbonData有啥优势 CarbonData文件格式是基于列式存储的,并存储在HDFS之上;其包含了现有列式存储文件 格式的许多有点,比如:可分割、可压缩、支持复杂数据类型等;并且CarbonData为了解决上面 5点要求,加入了许多独特的特性,主要概括为以下四点: 1、存储数据及其索引:在有过滤的查询中,它可以显著地加速查询性能,减少I/O和CPU资 源。CarbonData的索引由多级索引组成,处理框架可以利用这些索引信息来减少调度和一些处理 的开销;在任务扫描数据的时候它可以仅仅扫描更细粒度的单元(称为blocklet),而不需要扫描整 个文件。 2、可操作的编码数据:通过支持高效的压缩和全局编码模式,它可以直接在压缩或者编码 的数据上查询,仅仅在需要返回结果的时候才进行转换,这种技术被称为late materialized。 3、列组:支持多列组成一个列组,并且使用行格式进行存储,这减少了查询时行重建的开 销。 4、支持多种使用场景:比如支持类OLAP风格的交互式查询、顺序存取、随机访问等。 CarbonData文件格式 一个CarbonData文件是由一系列被称为blocklet组成的;除了blocklet,还有许多其他的元信 1 / 4 CarbonData:华为开发并支持Hadoop的列式文件格式 Spark大数据博客 - 息,比如模式、偏移量以及索引信息等,这些元信息是存储在CarbonData文件中的footer里。 每当在内存中建立索引的时候都需要读取footer里面的信息,因为可以利用这些信息优化后 续所有的查询。 每个blocklet又是由许多Data Chunks组成。Data Chunks里面的数据既可以按列或者行的形 式存储;数据既可以是单独的一列也可以是许多列。文件中所有的blocklets都包含相同数量和类 型的Data Chunks。CarbonData文件格式如下所示: 每个Data Chunk又是由许多被称为Pages的单元组成。总共有三种类型的pages: 1、Data Page:包含一列或者列组的编码数据; 2 / 4 CarbonData:华为开发并支持Hadoop的列式文件格式 Spark大数据博客 - 2、Row ID Page:包含行id的映射,在Data Page以反向索引的形式存储时会被使用;

您可能关注的文档

文档评论(0)

tangtianxu1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档