- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
使用Hadoop构建云计算平台1、Hadoop架构Hadoop的核心框架包括两个部分:HDFS 和Mapreduce;HDFS(即Hadoop Distributed System的缩写)是分布式计算的基石,而Mapreduce是任务的分解和结果的汇总。简单的说,Map就是将一个任务分解成 为多个任务,而Reduce就是将分解后多任务处理的结果汇总起来得出最后的结果;HDFS是一个与其它文件系统类似的,对于整个集群有单一的命名空间,文件被分割为多块分配存储到数据节点上的一个系统。2、Hadoop的优点2.1可扩展:不论是存储的可扩展性还是计算的可扩展都是Hadoop的设计根本,Hadoop具有很强的扩展性;2.2经济: 框架可以运行在任何普通的PC机上,我在这边采用的是几天快要或者已经被淘汰的PC机搭建。2.3可靠: 分布式文件系统的备份恢复机制以及Mapreduce的任务监控保证了分布式处理的可靠性。2.4高效: 分布式文件系统的高效数据交互实现以及Mapreduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。3、Hadoop单机模式的操作方法默认情况下,Hadoop被配置成以非分布式模式运行的一个独立的java进程。我们先来了解单机模式的情况。这对后面的调试非常有帮助。第一步,安装Linux之后,我们需要安装jdk和Hadoop,这都是比较简单的,这里注意所有电脑上安装路径必须一致。将Hadoop解压后,需要修改Hadoop安装文件夹下conf文件夹中的hadoop-env.sh,指定JAVA_HOME=/usr/local/jdk1.6.0_26,即jdk1.6.0_26的安装路径,设置Hadoop堆大小为2000MB。在用户主文件夹中,修改.bashrc脚本,增加JAVA环境变量export JAVA_HOME=/usr/local/jdk1.6.0_26export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH这样,单击模式可以进行计算了,下面以一个词频统计的例子作为实例。在Hadoop的安装文件夹目录下,输入mkdir inputcp conf/*.xml inputbin/hadoop jar hadoop-examples wordcount input outputcat output/*这里最后一句是查看结果,也可以直接进入output目录,打开相应文件。到这,单机模式的操作基本介绍了,这个过程很简单,主要是设置jdk的路径及环境变量的问题。4、Hadoop分布式模式的基本操作Hadoop部署过程相对比较复杂,也难得找到对应相对比较全的指导,自己一边摸索一边搭建,把目前在这方面的一些收获和问题拿出来,谈谈自己的一些浅显的经验。先以两台为例,一台作为Master( Hypervisor+DataNode),一台作为Slave(DataNode)。因为Hadoop要求所有机器上hadoop的部署目录结构相同,并且都有一个相同的用户名的帐户,我将所有PC机都建立一个hadoop的账户,主目录是/home/hadoop/第一步,配置网络,使部署Hadoop的PC机可以通信,一般可以互相ping对方的IP,注意任意两台PC机双发都要可以ping对方的IP,只有一方能ping还不行。第二步,修改Hostname,分别为master和slave。第三步,安装Java6 JDK,安装目录/usr/local。这里注意单机模式时配置的文件也就是这个目录。如果那两个文件配置的路径不正确的话,后面肯定出错。第四部,安装配置SSH为公钥认证。修改etc/ssh/sshd_config文件,将#PasswordAuthentication no的注释去掉,并且将NO修改为YES,将#PermitRootLogin yes的注释去掉;然后重启SSH服务:/etc/init.d/sshd restart,可以使用/etc/init.d/sshd status验证服务状态。在调试过程中,有时没有修改sshd_config文件而SSH服务停止了,这是只需重启SSH服务即可。这里可以用ssh 对方Hostname来验证,如ssh master。并重启服务之后,主从均进行下列SSH认证ssh-keygen –t rsa –P “”ssh-copy-id –i .ssh/id_rsa.pub 对方IP生成公钥对,并发给其他电脑。可以用其他方法复制给其他电脑。第五步,配置etc/hosts,为了使域名解析正常工作,需要将IP与域名正确对应起来如master的hosts文件10.0.38.132 master master10.0.38.133 slave slave
文档评论(0)