- 1、本文档共174页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第9章大数据迁移和采集工具《Hadoop大数据原理与应用》西安电子科技大学出版社【知识与能力要求】第9章 大数据迁移和采集工具大数据时代,多信息源并发形成了大量的异构数据,为了在大数据处理平台上进行分析处理,以挖掘出数据价值,必须首先进行数据的采集、转换加工、迁移等。Apache Sqoop是一个基于Hadoop的数据迁移工具,主要用于在Hadoop和结构化存储器之间传递数据;Apache Flume是一个海量日志的采集、聚合和传输系统;Apache Kafka是一个分布式流平台,允许发布和订阅记录流,用于在不同系统之间传递数据;Kettle是一个优秀的开源ETL工具,可以高效稳定地实现数据抽取、数据转换和加工、数据装载。第9章 大数据迁移和采集工具9.1 数据迁移工具Sqoop9.2 日志采集工具Flume9.3 分布式流平台Kafka9.4 ETL工具Kettle9.1 数据迁移工具SqoopApache Sqoop(SQL-to-Hadoop)是一个开源的基于Hadoop的数据迁移工具,是Apache的顶级项目,主要用于在Hadoop和结构化存储器之间传递数据。9.1.1 初识Sqoop1. Sqoop产生背景Hadoop平台的最大优势在于它支持使用不同形式的数据。HDFS能够可靠地存储日志和来自不同渠道的其它数据,MapReduce程序能够解析多种“特定的”数据格式,抽取相关信息并将多个数据集组合成有用的结果。但是为了能够和HDFS之外的数据存储库进行交互,必须通过开发MapReduce应用程序使用外部API来访问数据。例如,实际生产中经常会遇到这样的问题:将关系数据库中某张表的数据导入到Hadoop(HDFS/Hive/HBase)上,便于廉价的分析与处理,或将Hadoop上的数据导出到关系数据库中,可利用强大的SQL进一步分析和展示。那么如何解决这种问题呢?一般情况下是开发MapReduce来实现,数据导入时MapReduce输入为DBInputFormat,输出为TextOutputFormat;数据导出时MapReduce输入为TextInputFormat,输出为DBOutputFormat。使用MapReduce处理以上场景时存在问题,那就是每次都需要编写MapReduce程序,非常麻烦。在没有出现Sqoop之前,实际生产中有许多类似的需求,都需要通过编写MapReduce程序然后形成一个工具去解决,后来慢慢就将该工具代码整理出一个框架并逐步完善,最终就有了Sqoop的诞生。Sqoop工具????????????9.1.1 初识SqoopRDBMS(MySQL、Oracle、Postgresql、DB2…)Hadoop(HDFS、Hive、HBase)ImportExport2. Sqoop概述Apache Sqoop是一个开源工具,主要用于在Hadoop和关系数据库、数据仓库、NoSQL之间传递数据。通过Sqoop,可以方便地将数据从关系数据库(Oracle、MySQL、PostgreSQL等)导入到Hadoop(HDFS/Hive/HBase),用于进一步的处理,一旦生成最终的分析结果,便可以再将这些结果导出到结构化数据存储如关系数据库中,供其他客户端使用。9.1.1 初识Sqoop2. Sqoop概述Sqoop是连接传统关系型数据库和Hadoop的桥梁,它不需要开发人员编写MapReduce程序,只需要编写简单的配置脚本即可,大大提升了开发效率。Sqoop核心设计思想是利用MapReduce加快数据传输速度。也就是说,Sqoop的导入和导出功能是通过MapReduce作业实现的,所以它是一种批处理方式进行数据传输,难以实现实时数据的导入和导出。9.1.1 初识Sqoop3. Sqoop版本Sqoop的版本主要分为Sqoop 1和Sqoop 2,1.4.X版本称为Sqoop 1,1.99.X版本称为Sqoop 2。Sqoop 1和Sqoop 2在架构和使用上有很大区别,Sqoop 2对Sqoop 1进行了重写,以解决Sqoop 1架构上的局限性。Sqoop 1是命令行工具,不提供Java API,因此很难嵌入到其他程序中,另外,Sqoop 1的所有连接器都必须掌握所有输出格式,因此,编写新的连接器就需要做大量的工作。Sqoop 2具有运行作业的服务器组件和一整套客户端,包括命令行接口(CLI)、网站用户界面、REST API和Java API,Sqoop 2还能使用其它执行引擎例如Spark。读者应注意的是,Sqoop 2的CLI和Sqoop 1的CLI并不兼容。56个补丁191个补丁116个补丁9.1.1 初识Sqoop1.4.01.4.1MAPREDUCE-1644Apach
您可能关注的文档
- 9 气压传动pptx嗯嗯.pptx
- 5 液压控制阀嗯嗯.pptx
- 3 液压辅件嗯嗯.pptx
- 2 液压泵嗯嗯嗯嗯.pptx
- Hadoop大数据原理与应用第11章华为P30手机评论画像分析(2020春).pptx
- Hadoop大数据原理与应用课件-第1章大数据概述(2020春).pptx
- Hadoop大数据原理与应用课件-第2章初识Hadoop(2020春).pptx
- Hadoop大数据原理与应用课件-第5章统一资源管理和调度框架YARN(2020春).pptx
- Hadoop大数据原理与应用课件-第6章分布式协调框架ZooKeeper(2020春).pptx
- Linux系统基础与应用实践第0章 给初学者的建议.pptx
文档评论(0)