Hadoop本地运行模式深入理解讲述.doc

下载文档 降价啦

3
0
约 13页
2017-03-04 发布于湖北
举报
版权申诉
保障服务

Hadoop本地运行模式深入理解讲述.doc

1、本文档共13页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop本地运行模式深入理解讲述

Hadoop本地运行模式深入理解 Hadoop的运行模式分为3种：本地运行模式，伪分布运行模式，集群运行模式，相应概念如下： 1、独立模式即本地运行模式（standalone或local mode）无需运行任何守护进程（daemon），所有程序都在单个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便，因此，这种模式适宜用在开发阶段。 2、伪分布运行模式伪分布:如果Hadoop对应的Java进程都运行在一个物理机器上,称为伪分布运行模式，如下图所示： [root@hadoop20 dir2]# jps 8993 Jps 7409 SecondaryNameNode 7142 NameNode 7260 DataNode 8685 NodeManager 8590 ResourceManager 3、集群模式如果Hadoop对应的Java进程运行在多台物理机器上,称为集群模式.[集群就是有主有从] ，如下图所示： [root@hadoop11 local]# jps 18046 NameNode 30927 Jps 18225 SecondaryNameNode [root@hadoop22 ~]# jps 9741 ResourceManager 16569 Jps [root@hadoop33 ~]# jps 12775 DataNode 20189 Jps 12653 NodeManager [root@hadoop44 ~]# jps 10111 DataNode 17519 Jps 9988 NodeManager [root@hadoop55 ~]# jps 11563 NodeManager 11686 DataNode 19078 Jps [root@hadoop66 ~]# jps 10682 DataNode 10560 NodeManager 18085 Jps 注意：伪分布模式就是在一台服务器上面模拟集群环境,但仅仅是机器数量少,其通信机制与运行过程与真正的集群模式是一样的，hadoop的伪分布运行模式可以看做是集群运行模式的特殊情况。为了方便文章的后续说明，先介绍一下hadoop的体系结构：这里写图片描述从Hadoop的体系结构可以看出，HDFS与MapReduce分别是Hadoop的标配文件系统与标配计算框架，但是呢？–我们完全可以选择别的文件系统(如Windows的NTFS，Linux的ext4)与别的计算框架(如Spark、storm等)为Hadoop所服务，这恰恰说明了hadoop的松耦合性。在hadoop的配置文件中，我们是通过core-site.xml这个配置文件指定所用的文件系统的。 property namefs.defaultFS/name valuehdfs://hadoop11:9000/value /property 下面将基于Linux与Windows两种开发环境详细说明hadoop的本地运行模式，其中核心知识点如下： Hadoop的本地执行模式： 1、在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行 —-输入输出数据可以放在本地路径下（c:/wc/srcdata/） —-输入输出数据也可以放在hdfs中(hdfs://hadoop20:9000/dir) 2、在linux的eclipse里面直接运行main方法，但是不要添加yarn相关的配置，也会提交给localjobrunner执行 —-输入输出数据可以放在本地路径下（/usr/local/） —-输入输出数据也可以放在hdfs中(hdfs://hadoop20:9000/dir) 首先先基于Linux的开发环境进行介绍：这里写图片描述以WordCount程序为例，输入输出文件都放在本地路径下，代码如下： package MapReduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapred