大数据走向云计算 (5).ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 搭建云计算开发环境 下图构建了Hadoop集群环境包含3台机器,为一个典型的主从式(Master/Slave)结构。集群包含一个主控节点(Master)和两个从属节点(Slave)。 集群环境配置示意图 在Hadoop项目中,HDFS、MapReduce和HBase对主从节点的命名都不尽相同: ● HDFS中的主控节点命名为NameNode,从属节点命名为DataNode; ● MapReduce中的主控节点命名为JobTracker,从属节点命名为TaskTracker; ● HBase中的主控节点命名为Master,从属节点命名为RegionServer。 Hadoop为一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。 5.1 Hadoop环境搭建 5.2 Hadoop优点 Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。它主要有以下几个优点: (1)高可靠性 Hadoop按位存储和处理数据的能力值得人们信赖。 (2)高扩展性 Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。 (3)高效性 Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。 (4)高容错性 Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。 5.3 HBase环境搭建 HBase是一个分布式的、面向列的开源数据库,该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。 HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 HBase的系统框架如图所示。 HBase系统框架示意图 5.4 ZooKeeper环境搭建 ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。 ZooKeeper是以Fast Paxos算法为基础的,paxos算法存在活锁的问题,即当有多个proposer交错提交时,有可能互相排斥导致没有一个proposer能提交成功。ZooKeeper的基本运转流程: (1)选举Leader。 (2)同步数据。 (3)选举Leader过程中算法有很多,但要达到的选举标准是一致的。 (4)Leader要具有最高的zxid。 (5)集群中大多数的机器得到响应并follow选出的Leader。 5.5 MapReduce概述 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(化简)”,和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。 MapReduce框架示意图 MapReduce计算流程图 MapReduce任务由JobTracker分配,为合理利用网络带宽资源,在进行任务分配时采取移动计算而非移动数据的策略,即数据存储在计算机上,就由该计算机进行该部分数据的计算。 5.6 Pig环境搭建 安装Pig的基本条件随操作系统的不同而有所不同。 (1)下载Pig 可以去Pig的官方主页下载必威体育精装版的Pig,本书使用的版本是Pig 0.9.0。 (2)解压缩pig安装包 可利用以下代码实现安装包解压:$ tar -xvf pig-0.9.0.tar.gz (3)设置环境变量 其实现代码为: $ ln -s /opt/ha

文档评论(0)

132****9295 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档