一种基于Sqoop的数据交换系统.docVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于Sqoop的数据交换系统.doc

一种基于Sqoop的数据交换系统   摘 要:Hadoop是一个可开源提供分布式服务的平台,由于其具有高可靠、高效、高容错性和很强的横向扩展性,因此在大数据领域应用非常广泛,是当今大数据行业的热门。为了将关系型数据库中的数据导入到Hadoop集群中,以达到利用Hadoop本身的优点对数据进行存储、分析、处理的目的,并且在数据传输过程中兼顾传输效率和数据质量。本系统使用一种开源的数据传输工具Sqoop将关系型数据库中的数据导入到Hadoop平台上的分布式文件系统(HDFS)、非关系型数据库(HBase)、关系型数据仓库(Hive)中存储,从而实现数据交换。经测试,该系统可以完成数据交换的功能,系统总的传输速度可以达到20 000条/秒。在网络畅通的条件下,没有数据丢失,保证了数据质量,可实现数据的高效、可靠传输。   关键词:Sqoop;数据交换;Hadoop;大数据   中图分类号:TP274.2 文献标识码:A 文章编号:2095-1302(2016)03-00-03   0 引 言   在过去的20年里,信息技术迅猛发展,在各个领域中,各式各样的数据都出现了大规模增长,其中在互联网、金融、银行等行业中生成的用户数据增长更是迅速。根据统计数据,2015年中国的互联网用户达到8.5亿人,仅这些用户的个人信息就是非常大的数据量。国际数据公司(IDC)报告称,2011年全球被创建和复制的数据总量为1.8 ZB(1 ZB≈221 B),在短短的五年间增长了近9倍,而且预计这一数字将每年至少翻一番。如此大量的数据已经很难使用传统的单机服务系统来存储、分析和处理,集群式的服务系统是解决此问题的一个重要途径。Hadoop是一个由Apache基金会所开源的分布式系统基础架构,其中两个最核心的设计就是HDFS和MapReduce。HDFS为海量数据提供了存储,而MapReduce则提供了海量数据的计算。若要使用Hadoop对数据进行存储、分析、处理,就要将数据先交换到Hadoop平台上。   本文介绍一种基于Sqoop的数据交换系统,本系统可以将数据在关系型数据库和Hadoop平台之间进行数据交换。   1 Sqoop简介   Sqoop是一款开源的工具,开发的目的就是在Hadoop和关系数据库之间交换数据。它不仅可以将数据从一个关系型数据库系统(如MySQL、Oracle等)导入到Hadoop分布式文件系统(HDFS)、非关系型数据库(HBase)中,还可以将Hadoop中的数据导出到关系型数据库中。它是基于MapReduce进行数据处理的,所以Sqoop必须依赖Hadoop的集群环境。Sqoop项目始于2009年,现在是Apache基金会中的一个项目。目前分为两个版本:Sqoop1的版本号为1.4.x;Sqoop2的版本号为1.99.x。这两个版本完全不兼容,在架构和用法上也完全不同。   在架构上,Sqoop2引入了Sqoop Server(具体服务器为Tomcat),对每一个数据库连接(Connector)进行集中管理。它的访问方式也变得更加多样化,可以通过REST API、Java API、Web UI以及CLI控制台等方式控制数据交换的进程。另外,Sqoop2在安全方面也做的更出色,在Sqoop1中以命令行控制台的方式在关系型数据库与Hadoop之间进行数据交换时,在命令中需要显性的指定关系型数据库的用户名和密码,无安全性可言。在新版本Sqoop2中,如果同样的采用命令行控制台的方式,它会有一个交互界面,输入的密码信息不会被看到。通过图示对两者架构进行对比,可以直观的看出两者在访问方式上的区别,Sqoop2明显更加多样化。其中图1代表Sqoop1的架构,图2代表Sqoop2的架构。   2 系统设计   本系统是基于Sqoop的数据交换系统,可以在关系型数据库与Hadoop之间进行数据交换。系统可以读取关系型数据库(以MySQL为例)中的数据,将数据导入到Hadoop集群中的HDFS、HBase、Hive中,以达到关系型数据库与Hadoop之间进行数据交换的目的。   3 系统测试   硬件环境为:Hadoop集群为3台相同的戴尔服务器。配置为:两颗4核Inter(R)Xeon(R)E5606 CPU,主频为2.13 GHz;内存为16 GB;硬盘为300 GB。   软件环境为:Hadoop的版本为2.6.0;Sqoop采用1.4.5.2.2版本;HDFS采用2.6.0版本;HBase采用0.98.4版本;Hive采用0.14.0版本;MySQL的版本为5.6.0。   本测试将数据分别导入HDFS、HBase、Hive中,并分开进行。   3.1 导入到HDFS   HDFS是Hado

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档