- 1、本文档共29页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SQL-on-Hadoop结构化
大数据分析系统性能评测
陈跃国
中国人民大学
数据工程与知识工程教育部重点实验室
战国时代,新的大数据
系统不断涌现…
百家争鸣,孰优孰劣?
基准的意义
• 如今大数据市场形如80年代的的数据库市场
– 新的系统和产品迅速涌现,尚未形成垄断
• 传统数据库成功非常受益于基准的制定和
推广
– TPC: Transaction Processing Performance Council
• 目前缺少大数据系统之间比较的基准
– 基准制定困难:数据类型多、应用类型多、系统
复杂、负载动态等
基准测试
• 大数据基准正在建设,尚需完善
–BigBench,Berkeley Big Data Benchmark等
–研究和产业化不能坐等公认的基准形成
• 当前交互式大数据分析系统 (SQL-on-
Hadoop)非常火热
–在Hadoop构架基础上深度借鉴MPP数据库技术
–性能远超Hive,各说各的好,缺少公正比较
• TPC-DS可以做到100TB
–可以用来比较SQL-on-Hadoop系统
近期的测试工作
• 利用人大行云平台
–50台物理机,虚拟出100个节点
–单节点4核,20GB 内存,1TB本地磁盘存储
–普通千兆网
• 使用TPC-DS生成关系型数据
–300GB、1TB、3TB
• 测试开源大数据分析系统(SQL-on-Hadoop)
–Hive, Stinger, Shark
–Impala, Presto
5
评测系统
• Apache Hive (0.10)
– 几个被比较系统的基础,将HQL转换成MR任务
• Hortonworks Stinger (Hive 0.11)
– 对Hive的升级,查询优化、Hadoop性能提升、ORCFile
• Berkeley Shark (0.7.0)
– 数据尽可能使用内存列存储
– 中间结果避免写到磁盘,并具备容错机制
• Cloudera Impala (1.0.1)
– 脱离MR,初级MPP分析数据库引擎,并行查询处理
– Parquet列存储的使用,嵌套数据和缓存的使用
• Facebook Presto (0.54)
– 脱离MR,in-memory和pipeline处理
– RCFile,热数据缓存,类似Impala
6
查询集…
• 单表查询:
--qA5o--
select ss_store_sk as store_sk, ss_sold_date_sk as date_sk
ss_ext_sales_price as sales_price, ss_net_profit as profit
from store_sales
where ss_ext_sales_price20
order by profit
limit 100;
--qA9--
select count(*) from store_sales
where ss_quantity between 1 and 20
limit 100;
查询集..
• Ad hoc查询
文档评论(0)