一种基于Sqoop的数据交换系统.docVIP

下载本文档

17
0
约2.63千字
约 4页
2017-03-03 发布于北京
举报
版权申诉

一种基于Sqoop的数据交换系统.doc

1、本文档共4页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于Sqoop的数据交换系统.doc

一种基于Sqoop的数据交换系统　　摘要：Hadoop是一个可开源提供分布式服务的平台，由于其具有高可靠、高效、高容错性和很强的横向扩展性，因此在大数据领域应用非常广泛，是当今大数据行业的热门。为了将关系型数据库中的数据导入到Hadoop集群中，以达到利用Hadoop本身的优点对数据进行存储、分析、处理的目的，并且在数据传输过程中兼顾传输效率和数据质量。本系统使用一种开源的数据传输工具Sqoop将关系型数据库中的数据导入到Hadoop平台上的分布式文件系统（HDFS）、非关系型数据库（HBase）、关系型数据仓库（Hive）中存储，从而实现数据交换。经测试，该系统可以完成数据交换的功能，系统总的传输速度可以达到20 000条/秒。在网络畅通的条件下，没有数据丢失，保证了数据质量，可实现数据的高效、可靠传输。　　关键词：Sqoop；数据交换；Hadoop；大数据　　中图分类号：TP274.2 文献标识码：A 文章编号：2095-1302（2016）03-00-03 　　0 引言　　在过去的20年里，信息技术迅猛发展，在各个领域中，各式各样的数据都出现了大规模增长，其中在互联网、金融、银行等行业中生成的用户数据增长更是迅速。根据统计数据，2015年中国的互联网用户达到8.5亿人，仅这些用户的个人信息就是非常大的数据量。国际数据公司（IDC）报告称，2011年全球被创建和复制的数据总量为1.8 ZB（1 ZB≈221 B），在短短的五年间增长了近9倍，而且预计这一数字将每年至少翻一番。如此大量的数据已经很难使用传统的单机服务系统来存储、分析和处理，集群式的服务系统是解决此问题的一个重要途径。Hadoop是一个由Apache基金会所开源的分布式系统基础架构，其中两个最核心的设计就是HDFS和MapReduce。HDFS为海量数据提供了存储，而MapReduce则提供了海量数据的计算。若要使用Hadoop对数据进行存储、分析、处理，就要将数据先交换到Hadoop平台上。　　本文介绍一种基于Sqoop的数据交换系统，本系统可以将数据在关系型数据库和Hadoop平台之间进行数据交换。　　1 Sqoop简介　　Sqoop是一款开源的工具，开发的目的就是在Hadoop和关系数据库之间交换数据。它不仅可以将数据从一个关系型数据库系统（如MySQL、Oracle等）导入到Hadoop分布式文件系统（HDFS）、非关系型数据库（HBase）中，还可以将Hadoop中的数据导出到关系型数据库中。它是基于MapReduce进行数据处理的，所以Sqoop必须依赖Hadoop的集群环境。Sqoop项目始于2009年，现在是Apache基金会中的一个项目。目前分为两个版本：Sqoop1的版本号为1.4.x；Sqoop2的版本号为1.99.x。这两个版本完全不兼容，在架构和用法上也完全不同。　　在架构上，Sqoop2引入了Sqoop Server（具体服务器为Tomcat），对每一个数据库连接（Connector）进行集中管理。它的访问方式也变得更加多样化，可以通过REST API、Java API、Web UI以及CLI控制台等方式控制数据交换的进程。另外，Sqoop2在安全方面也做的更出色，在Sqoop1中以命令行控制台的方式在关系型数据库与Hadoop之间进行数据交换时，在命令中需要显性的指定关系型数据库的用户名和密码，无安全性可言。在新版本Sqoop2中，如果同样的采用命令行控制台的方式，它会有一个交互界面，输入的密码信息不会被看到。通过图示对两者架构进行对比，可以直观的看出两者在访问方式上的区别，Sqoop2明显更加多样化。其中图1代表Sqoop1的架构，图2代表Sqoop2的架构。　　2 系统设计　　本系统是基于Sqoop的数据交换系统，可以在关系型数据库与Hadoop之间进行数据交换。系统可以读取关系型数据库（以MySQL为例）中的数据，将数据导入到Hadoop集群中的HDFS、HBase、Hive中，以达到关系型数据库与Hadoop之间进行数据交换的目的。　　3 系统测试　　硬件环境为：Hadoop集群为3台相同的戴尔服务器。配置为：两颗4核Inter（R）Xeon（R）E5606 CPU，主频为2.13 GHz；内存为16 GB；硬盘为300 GB。　　软件环境为：Hadoop的版本为2.6.0；Sqoop采用1.4.5.2.2版本；HDFS采用2.6.0版本；HBase采用0.98.4版本；Hive采用0.14.0版本；MySQL的版本为5.6.0。　　本测试将数据分别导入HDFS、HBase、Hive中，并分开进行。　　3.1 导入到HDFS 　　HDFS是Hado