- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于Sqoop的数据交换系统.doc
一种基于Sqoop的数据交换系统
摘 要:Hadoop是一个可开源提供分布式服务的平台,由于其具有高可靠、高效、高容错性和很强的横向扩展性,因此在大数据领域应用非常广泛,是当今大数据行业的热门。为了将关系型数据库中的数据导入到Hadoop集群中,以达到利用Hadoop本身的优点对数据进行存储、分析、处理的目的,并且在数据传输过程中兼顾传输效率和数据质量。本系统使用一种开源的数据传输工具Sqoop将关系型数据库中的数据导入到Hadoop平台上的分布式文件系统(HDFS)、非关系型数据库(HBase)、关系型数据仓库(Hive)中存储,从而实现数据交换。经测试,该系统可以完成数据交换的功能,系统总的传输速度可以达到20 000条/秒。在网络畅通的条件下,没有数据丢失,保证了数据质量,可实现数据的高效、可靠传输。
关键词:Sqoop;数据交换;Hadoop;大数据
中图分类号:TP274.2 文献标识码:A 文章编号:2095-1302(2016)03-00-03
0 引 言
在过去的20年里,信息技术迅猛发展,在各个领域中,各式各样的数据都出现了大规模增长,其中在互联网、金融、银行等行业中生成的用户数据增长更是迅速。根据统计数据,2015年中国的互联网用户达到8.5亿人,仅这些用户的个人信息就是非常大的数据量。国际数据公司(IDC)报告称,2011年全球被创建和复制的数据总量为1.8 ZB(1 ZB≈221 B),在短短的五年间增长了近9倍,而且预计这一数字将每年至少翻一番。如此大量的数据已经很难使用传统的单机服务系统来存储、分析和处理,集群式的服务系统是解决此问题的一个重要途径。Hadoop是一个由Apache基金会所开源的分布式系统基础架构,其中两个最核心的设计就是HDFS和MapReduce。HDFS为海量数据提供了存储,而MapReduce则提供了海量数据的计算。若要使用Hadoop对数据进行存储、分析、处理,就要将数据先交换到Hadoop平台上。
本文介绍一种基于Sqoop的数据交换系统,本系统可以将数据在关系型数据库和Hadoop平台之间进行数据交换。
1 Sqoop简介
Sqoop是一款开源的工具,开发的目的就是在Hadoop和关系数据库之间交换数据。它不仅可以将数据从一个关系型数据库系统(如MySQL、Oracle等)导入到Hadoop分布式文件系统(HDFS)、非关系型数据库(HBase)中,还可以将Hadoop中的数据导出到关系型数据库中。它是基于MapReduce进行数据处理的,所以Sqoop必须依赖Hadoop的集群环境。Sqoop项目始于2009年,现在是Apache基金会中的一个项目。目前分为两个版本:Sqoop1的版本号为1.4.x;Sqoop2的版本号为1.99.x。这两个版本完全不兼容,在架构和用法上也完全不同。
在架构上,Sqoop2引入了Sqoop Server(具体服务器为Tomcat),对每一个数据库连接(Connector)进行集中管理。它的访问方式也变得更加多样化,可以通过REST API、Java API、Web UI以及CLI控制台等方式控制数据交换的进程。另外,Sqoop2在安全方面也做的更出色,在Sqoop1中以命令行控制台的方式在关系型数据库与Hadoop之间进行数据交换时,在命令中需要显性的指定关系型数据库的用户名和密码,无安全性可言。在新版本Sqoop2中,如果同样的采用命令行控制台的方式,它会有一个交互界面,输入的密码信息不会被看到。通过图示对两者架构进行对比,可以直观的看出两者在访问方式上的区别,Sqoop2明显更加多样化。其中图1代表Sqoop1的架构,图2代表Sqoop2的架构。
2 系统设计
本系统是基于Sqoop的数据交换系统,可以在关系型数据库与Hadoop之间进行数据交换。系统可以读取关系型数据库(以MySQL为例)中的数据,将数据导入到Hadoop集群中的HDFS、HBase、Hive中,以达到关系型数据库与Hadoop之间进行数据交换的目的。
3 系统测试
硬件环境为:Hadoop集群为3台相同的戴尔服务器。配置为:两颗4核Inter(R)Xeon(R)E5606 CPU,主频为2.13 GHz;内存为16 GB;硬盘为300 GB。
软件环境为:Hadoop的版本为2.6.0;Sqoop采用1.4.5.2.2版本;HDFS采用2.6.0版本;HBase采用0.98.4版本;Hive采用0.14.0版本;MySQL的版本为5.6.0。
本测试将数据分别导入HDFS、HBase、Hive中,并分开进行。
3.1 导入到HDFS
HDFS是Hado
您可能关注的文档
- 《概率论与数理统计》教学创新探究.doc
- 《欢乐颂》叙事策略分析.doc
- 《比的意义》教学案例.doc
- 《浙江省古道探秘指南图》的编制特点.doc
- 《海图学》课程的建设与实践.doc
- 《激战运钞车》声音技术分析.doc
- 《烹饪安全与控制》课程教学改革初探.doc
- 《焙烤食品工艺学》校企合作教育模式改革.doc
- 《物流专业英语》课程中英语发音的重点和难点探析.doc
- 《牵手幸福》读后感.doc
- 食品经营许可延续申请档案.doc
- 天津食品经营许可新办申请类通知书(一式两联4类).doc
- 雷电防护装置检测资质现场考核计分表、专家评审内容汇总表、考核评审报告样表.docx
- 天津食品经营许可各类通知书.docx
- 土方机械 机器控制系统架构目标和描述、编码命名和注释规范、基于UML应用层模块信息及用法、映射层模块结构、端口及连接器、基础层模块分类、软件架构实现示例.pdf
- 智能计算中心算力设施、各级智能计算中心基础设施技术要求.docx
- 企业用水效率测试与评价导则报告书编制大纲、相关统计样表、企业用水效率主要计算公式.pdf
- 广州小学数学二年级下期末试卷及答案期末复习整理卷及答案.pdf
- 浙江省宁波市慈溪市四年级(下)期末数学试卷(含答案).pdf
- 关于小学毕业班六年级下学期家长会班主任发言稿.pdf
文档评论(0)