网站大量收购闲置独家精品文档,联系QQ:2885784924

SQL-on-Hadoop结构化大数据分析系统性能评测.pdf

SQL-on-Hadoop结构化大数据分析系统性能评测.pdf

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SQL-on-Hadoop结构化 大数据分析系统性能评测 陈跃国 中国人民大学 数据工程与知识工程教育部重点实验室 战国时代,新的大数据 系统不断涌现… 百家争鸣,孰优孰劣? 基准的意义 • 如今大数据市场形如80年代的的数据库市场 – 新的系统和产品迅速涌现,尚未形成垄断 • 传统数据库成功非常受益于基准的制定和 推广 – TPC: Transaction Processing Performance Council • 目前缺少大数据系统之间比较的基准 – 基准制定困难:数据类型多、应用类型多、系统 复杂、负载动态等 基准测试 • 大数据基准正在建设,尚需完善 –BigBench,Berkeley Big Data Benchmark等 –研究和产业化不能坐等公认的基准形成 • 当前交互式大数据分析系统 (SQL-on- Hadoop)非常火热 –在Hadoop构架基础上深度借鉴MPP数据库技术 –性能远超Hive,各说各的好,缺少公正比较 • TPC-DS可以做到100TB –可以用来比较SQL-on-Hadoop系统 近期的测试工作 • 利用人大行云平台 –50台物理机,虚拟出100个节点 –单节点4核,20GB 内存,1TB本地磁盘存储 –普通千兆网 • 使用TPC-DS生成关系型数据 –300GB、1TB、3TB • 测试开源大数据分析系统(SQL-on-Hadoop) –Hive, Stinger, Shark –Impala, Presto 5 评测系统 • Apache Hive (0.10) – 几个被比较系统的基础,将HQL转换成MR任务 • Hortonworks Stinger (Hive 0.11) – 对Hive的升级,查询优化、Hadoop性能提升、ORCFile • Berkeley Shark (0.7.0) – 数据尽可能使用内存列存储 – 中间结果避免写到磁盘,并具备容错机制 • Cloudera Impala (1.0.1) – 脱离MR,初级MPP分析数据库引擎,并行查询处理 – Parquet列存储的使用,嵌套数据和缓存的使用 • Facebook Presto (0.54) – 脱离MR,in-memory和pipeline处理 – RCFile,热数据缓存,类似Impala 6 查询集… • 单表查询: --qA5o-- select ss_store_sk as store_sk, ss_sold_date_sk as date_sk ss_ext_sales_price as sales_price, ss_net_profit as profit from store_sales where ss_ext_sales_price20 order by profit limit 100; --qA9-- select count(*) from store_sales where ss_quantity between 1 and 20 limit 100; 查询集.. • Ad hoc查询

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档