网站大量收购独家精品文档,联系QQ:2885784924

Hadoop云计算技术介绍-大数据文档资料.docx

Hadoop云计算技术介绍-大数据文档资料.docx

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Hadoop云计算技术介绍

作者:zbwd中国云计算论坛Email:xjtuzb@

GTCRC@XJTU

序言

Hadoop是一个开源的分布式并行计算平台,它主要由MapReduce的算法执行和

一个分布式的文件系统等两部分组成。

Hadoop起源于DougCutting大牛领导开发的Nutch有哪些信誉好的足球投注网站引擎项目的子项目。现在是Apache软件基金会管理的开源项目。

本文主要介绍Hadoop及相关技术,从Hadoop的起源开始讲述,主要涵盖了

MapReduce算法思想,基本框架,运行流程和编程粒度等内容,以期给入门者提供一个关于Hadoop的技术简介和研究参考。关于Hadoop的安装指南和编程范例并不在本文叙述范围内,有需要者请参考其它资料。

因笔者水平实在太有限了,文中如有疏漏错误请不吝指出,万分感谢。

本人资料多数来源于互联网的技术文档,附录列出引文列表,特此致谢原文作者。最后,发自内心、无与伦比地感谢Google、Apache软件基金会和DougCutting带给我们如此简约、优雅的技术。

OK,让我们开始吧!去寻找那神奇的小飞象。

Hadoop云计算技术介绍第2页共17页

目录

●引言——Hadoop从何而来

●算法思想——Hadoop是怎么思考的

●基本架构——Hadoop是如何构成的

●运行流程—Hadoop是如何工作的

●任务粒度——Hadoop是如何并行的

●参考文献

Hadoop云计算技术介绍第3页共17页

1.引信—Hadoop从何而来

自从Google工程师JeffreyDean提出MapReduce编程思想,MapReduce便在Google的各种Web应用中释放着魔力。然而,也许出于技术必威体育官网网址的目的,Google公司并没有透露其MapReduce的实现细节。

幸运的是,DougCutting开发的Hadoop作为MapReduce开源实现,让

MapReduce这么平易近人地走到了我们面前。2006年1月,DougCutting因其在开源项目Nutch和Lucene的卓越表现受邀加入Yahoo公司,专职在Hadoop项目上进行开发。现在,DougCutting大牛已经加盟Cloudera(一家从事Hadoop

产品商业化及技术支持的公司)。

注:Hadoop名称的来历——Hadoop原本是小DougCutting的大象玩具。

作为GoogleMapReduce技术的开源实现,Hadoop理所当然地借鉴了Google的GoogleFileSystem文件系统、MapReduce并行算法以及BigTable。因此,

Hadoop也是一个能够分布式处理大规模海量数据的软件框架,这一点不足为奇。当然,这一切都是在可靠、高效、可扩展的基础上。Hadoop的可靠性——因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。Hadoop的高效性——在MapReduce

Hadoop云计算技术介绍第4页共17页

的思想下,Hadoop是并行工作的,以加快任务处理速度。Hadoop的可扩展—-依赖于部署Hadoop软件框架计算集群的规模,Hadoop的运算是可扩展的,具有处理PB级数据的能力。

虽然Hadoop自身由Java语言开发,但它除了使用Java语言进行编程外,同样支持多种编程语言,如C++。

Hadoop的长期目标是提供世界级的分布式计算工具,也是对下一代业务(如有哪些信誉好的足球投注网站结果分析等)提供支持的Web扩展(web-scale)服务。

2.算法思想—Hadoop是怎么思考的

MapReduce主要反映了映射和规约两个概念,分别完成映射操作和规约操作。映射操作按照需求操作独立元素组里面的每个元素,这个操作是独立的,然后新建一个元素组保存刚生成的中间结果。因为元素组之间是独立的,所以映射操作基本上是高度并行的。规约操作对一个元素组的元素进行合适的归并。虽然有可能规约操作不如映射操作并行度那么高,但是求得一个简单答案,大规模的运行仍然可能相对独立,所以规约操作也有高度并行的可能。

Hadoop云计算技术介绍第5页共17页

GeneralMapReduceAlgorithm

Input

InputFile

Map(split)Functio

您可能关注的文档

文档评论(0)

分享吧 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档