网站大量收购独家精品文档,联系QQ:2885784924

(在Hadoop基础上的数据处理系统的构建研究.docVIP

(在Hadoop基础上的数据处理系统的构建研究.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(在Hadoop基础上的数据处理系统的构建研究

在Hadoop基础上的数据处理系统的构建研究 第 1 章 绪论 1.1 研究背景和意义 随着科技的进步以及互联网技术的不断提高,越来越多的智能设备被人们所使用。而如今物联网、云计算等新兴技术也开始逐步影响着人们的生活,随之而来的就是这些数据载体所导致的数据量增长的问题,比如 Facebook 每天所要处理的数据量就在 500TB 左右,如何处理这些海量数据成为了每个公司发展的瓶颈。据统计,截至到 2015 年全球的数据量将达到 8.5ZB,而且将以每 18 个月翻一番的趋势增长,其中以电子商务交易数据、社交网络数据和移动终端数据为代表的三大主导非结构化数据将占全球数据总量的 90%[1]。无疑,大数据的时代已经到来。 本文要处理的数据是温度传感器采集的数据,因此在短时间内就会产生大量的数据,而且这些数据是不断增长的,如果采用传统的数据存储模式即使用处理能力很强的大型机和关系型数据库,即将全部数据存储到具有很大容量的磁盘上。虽然近年来磁盘的存储容量不断增加,但是其访问速度却未能与时俱进,比如读取具有 1TB 数据的磁盘,其速度传输速度为 100MB/s,读取完所有数据仍需要 1个小时[2]。所以面对这些不断增长的温度数据,即使再大容量的机器也不能从根本上解决大数据的存储问题;而关系型数据库的缺点是只能存储结构化的数据、没有较好的弹性和容错性等,所以传统的处理模式已经不能满足要求了。而云计算的出现给这些问题带来了生机。云计算是并行计算、分布式计算、虚拟化等技术的结合[3]。目前比较流行的云平台有 Abiquo 公司开发的 AbiCloud,它是一款用于公司的开源的云计算平台,使公司能够以快速、简单和可扩展的方式创建和管理大型、复杂的 IT 基础设施(包括虚拟服务器、网络、应用、存储设备等)[3,4];Enomalism 弹性计算平台,它提供了一个功能类似于 EC2 的云计算框架;Hadoop,是 Google 云计算平台的一个开源实现,主要包括 HDFS 文件系统和 MapReduce编程模型。 本文所设计的数据处理系统采用 Hadoop 框架,利用集群模式来作为本系统所依赖的底层环境,并且配合 HBase 共同构建私有云。HBase 作为数据库存储采集到的数据,并在此系统上进行 MapReduce 程序的编写[5,6];使用 Java Web 技术来编写网页管理界面,使用户能够直接通过浏览器来对数据进行统一的管理操作。本文设计的系统能够很好的处理温度数据,同时对于其他大数据场合同样实用,具有很好的实际应用价值。 .................................. 1.2 国内外研究现状 ⑴大数据的发展 “大数据”是随着 Apache 的开源项目 Nutch 发展而来的。当时 Nutch 项目主要是用来做网页爬虫和优化有哪些信誉好的足球投注网站引擎的,所以会产生大量的数据集,而大数据就是这些数据集的简称。后来 Google 在 2004 年发表了两篇论文:MapReduce 和GoogleFile System(GFS),从此大数据就不仅用来形容数据的容量了,同时还包括了海量数据的处理速度。 早在 1980 年,著名未来学家阿尔文·托夫勒发表了《第三次浪潮》一书,大数据被第一次提了出来,同时他还将大数据热情地赞颂为“第三次浪潮的华彩乐章”[7]。 从 2009 年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长 50%,每两年便翻一番,而目前世界上 90%以上的数据是最近几年才产生的[7]。从 2009 年到现在,大数据被越来越多的公司重视,并且开始着手大数据的分析和处理方案的研究,并结合公司自身数据源的特点,开发出合适的数据处理方案。 ⑵Hadoop 的发展 2004 年,Apache 的顶级项目 Hadoop 由 Doug Cutting 等人共同开发出来,是为了解决在 Lucene 和 Nutch 等开源项目中遇到的数据处理速度等问题,是 Google发表的 GFS 和 MapReduce 思想的一种开源实现[8]。 2008 年 2 月,雅虎宣布搭建了当时世界上最大规模的 Hadoop 集群系统,Yahoo!Serch Webmap,并用它来进行雅虎日常的广告统计、日志分析和科研实验;亚马逊的有哪些信誉好的足球投注网站网站 A9.com 使用 Hadoop 来生成商品有哪些信誉好的足球投注网站的索引[9];全球最大的网上音乐社区 Last.fm 在 Hadoop 上运行着数百种执行各种操作的日常作业,例如日志分析、及时处理和图表生成等;著名社交网站 Facebook 用 320 多台机器组成的Hadoop 集群构建了整个网站的数据仓库,进行网站的日志分析和数据挖掘等工作[9]。 2008 年之后,越来越多的国内企业

您可能关注的文档

文档评论(0)

junjun37473 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档