- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SQL On Hadoop 技术SQL On Hadoop 技术
SQL on Hadoop的必威体育精装版进展及7项相关技术分享大数据是现在非常热门的一个话题,从工程或者技术的角度来看,大数据的核心是如何存储、分析、挖掘海量的数据解决实际的问题。那么对于一个工程师或者分析师来说,如何查询和分析TB/PB级别的数据是在大数据时代不可回避的问题。SQL on Hadoop就成为了一个重要的工具。为什么非要把SQL放到Hadoop上? SQL易于使用;那为什么非得基于Hadoop呢?Hadoop架构具备很强的鲁棒性和可扩展性。本文从技术架构和必威体育精装版进展两个角度分析一下各种SQL on Hadoop产品的优缺点和适用范围:Hive、Tez/Stinger、Impala、Shark/Spark、Phoenix、Hdapt/HadoopDB、Hawq/Greenplum。在互联网企业和有大数据处理需求的传统企业中,基于Hadoop构建的数据仓库的数据来源主要有以下几个:?通过Flume/Scribe/Chukwa这样的日志收集和分析系统把来自Apache/Nginx的日志收集到HDFS上,然后通过Hive查询。?通过Sqoop这样的工具把用户和业务维度数据(一般存储在Oracle/MySQL中)定期导入Hive,那么OLTP数据就有了一个用于OLAP的副本了。?通过ETL工具从其他外部DW数据源里导入的数据。目前所有的SQL on Hadoop产品其实都是在某个或者某些特定领域内适合的,没有silver bullet。像当年Oracle/Teradata这样的满足几乎所有企业级应用的产品在大数据时代是不现实的。所以每一种SQL on Hadoop产品都在尽量满足某一类应用的特征。典型需求:interactive query (ms~3min)data analyst,reporting query (3min~20min)data mining,modeling and large ETL (20 min ~ hr ~ day)机器学习需求(通过MapReduce/MPI/Spark等计算模型来满足)Hive?Hive是目前互联网企业中处理大数据、构建数据仓库最常用的解决方案,甚至在很多公司部署了Hadoop集群不是为了跑原生MapReduce程序,而全用来跑Hive SQL的查询任务。对于有很多data scientist和analyst的公司,会有很多相同表的查询需求。那么显然每个人都从Hive中查数据速度既慢又浪费资源。如果能把经常访问的数据放到内存组成的集群中供用户查询那样效率就会高很多。Facebook针对这一需求开发了Presto,一个把热数据放到内存中供SQL查询的系统。这个设计思路跟Impala和Stinger非常类似了。使用Presto进行简单查询只需要几百毫秒,即使是非常复杂的查询,也只需数分钟即可完成,它在内存中运行,并且不会向磁盘写入。Facebook有超过850名工程师每天用它来扫描超过320TB的数据,满足了80%的ad-hoc查询需求。目前Hive的主要缺点:?data shuffle时网络瓶颈,Reduce要等Map结束才能开始,不能高效利用网络带宽。?一般一个SQL都会解析成多个MR job,Hadoop每次Job输出都直接写HDFS,大量磁盘IO导致性能比较差。?每次执行Job都要启动Task,花费很多时间,无法做到实时。?由于把SQL转化成MapReduce job时,map、shuffle和reduce所负责执行的SQL解析出得功能不同。那么就有Map-MapReduce或者MapReduce-Reduce这样的需求,这样可以降低写HDFS的IO数量,从而提高性能。但是目前MapReduce框架还不支持M-MR或者MR-R这样的任务执行。目前Hive主要的改进(主要是体现在 Hive 0.11版本上):1. 同一条hive sql解析出的多个MR任务的合并。由Hive解析出来的MR jobs中有非常多的Map-MapReduce类型的job,可以考虑把这个过程合并成一个MRjob。/jira/browse/HIVE-3952 2. Hive query optimizer(查询优化器是Hive需要持续不断优化的一个topic)例如JOIN顺序的优化,就是原来一个大表和多个小表在不同column匹配的条件下JOIN需要解析成多个Map join + MR job,现在可以合并成一个MR job。这个改进方向要做的就是用户不用给太多的hint,hive可以自己根据表的大小、行数等,自动选择最快的join的方法(小表能装进内存的话就用Map join,Map join能和其他MR job合并的就合并)。这个思路跟cost-based query optimizer有点类似了,用户
您可能关注的文档
- reviewboard使用说明reviewboard使用说明.doc
- Rhino 5.0【Rhinoceros 5.0】官方中文安装图文教程Rhino 5.0【Rhinoceros 5.0】官方中文安装图文教程.doc
- RL086绩效考核手册RL086绩效考核手册.doc
- RM-QM-2015质量管理手册RM-QM-2015质量管理手册.doc
- QC成果 提高CBM自稳型高强薄壁管混凝土空心楼盖施工质量QC成果 提高CBM自稳型高强薄壁管混凝土空心楼盖施工质量.doc
- RS一体化管理手册RS一体化管理手册.doc
- Robot Framework框架Robot Framework框架.docx
- Ry-GY2019十门更衣柜和ZG-ZW024图书超市密码寄包柜价格Ry-GY2019十门更衣柜和ZG-ZW024图书超市密码寄包柜价格.docx
- Rytqqk毕业答辩PPT 制作及开场白模板Rytqqk毕业答辩PPT 制作及开场白模板.doc
- Ry-GY2019十门更衣柜和寄物柜价格Ry-GY2019十门更衣柜和寄物柜价格.docx
最近下载
- 分公司营销部门薪酬与绩效方案.docx VIP
- 哲学与人生-第8课《在实践中提高认识能力》第二框《明辨是非,追求真理》教案.docx
- 2024-2025人教版小学1一年级数学上册(全册)教案【新教材】.doc
- 宝洁麦克销售模式Ⅱ.pdf
- GB-T 3511-2018硫化橡胶或热塑性橡胶 耐候性(新版本).pdf
- 春节后复产复工“六个一”安全工作台帐.docx
- XXX200MW.400MWh储能电站项目技术规范书-(20230415).docx VIP
- 清华特奖教你怎么用学术不端来走上学术巅峰.pdf
- ISO TR 17671-1-02焊接—金属材料焊接的推荐1:电弧焊一般指导.pdf
- 互联网医院建设方案.pptx
文档评论(0)