windows下配置cygwinhadoop等并运行mapreduce及mapreduce程序讲解.doc

下载文档 降价啦

43
0
约1.12万字
约 11页
2016-12-29 发布于重庆
举报
版权申诉
保障服务

windows下配置cygwinhadoop等并运行mapreduce及mapreduce程序讲解.doc

1、本文档共11页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

使用Cygwin模拟Linux环境安装配置运行基于单机的Hadoop 其实，使用Cygwin模拟Linux环境来运行Hadoop是非常轻松的，只需要简单地配置一下就可以运行基于单机的Hadoop。这里，比较关键的就是Cygwin的安装，在选择安装的时候一定要安装openssh，否则不会成功的，下面简单说一下Cygwin的安装及其配置： Cygwin的下载安装首先点击/setup.exe下载setup.exe，例如保存到桌面，点击就可以进行下载安装了。在选择安装类型的时候，最好是选择第一个，直接从网络上下载并紧接着安装，如图所示：然后选择安装路径、安装文件存放路径、连接方式(这里选择Use IE5 Settings)、下载站点镜像，自动创建下载文件列表，接下来一步比较重要了：选择安装类型，可以单击最顶层的All后面的循环样式图标切换安装类型，是的最顶层All行的最后一个单词为Install，如图所示：其实，如果你选择了Install安装类型，就已经选择了openssh包。为让你看到openssh包，你可以在Net [图标] Install 下面看到与网络有关的包，如图所示：向下滑动滚动条，可以看到openssh，如图所示：在Cirrent下如果显示版本号，说明该包已经被此次安装选择上了，否则的话会显示一个Skip，意思是跳过该包，并不会安装该包的。最后就等着下载安装了，这个过程可能会花费一点时间的。 Cygwin的配置安装完成之后，例如我的Cygwin安装在G:\Cygwin\目录下面，进行配置如下：设置环境变量：在系统变量中新建变量【变量名：CYGWIN，变量值：ntsec tty】；编辑添加变量【变量名：Path，变量值：G:\Cygwin\bin;其它的保留】。 OK，基本配置好了，可以配置Hadoop了。 Hadoop目前的有几个版本：hadoop-0.16.4、hadoop-0.18.0，到Apache下载一个并解压缩即可。将解压缩的Hadoop放到G盘下，例如我的是：G:\hadoop-0.16.4。配置Hadoop只需要修改G:\hadoop-0.16.4\conf目录下的hadoop-env.sh文件即可，打开它你可以看到： # The java implementation to use. Required.# export JAVA_HOME=/usr/lib/j2sdk1.5-sun 将第二行的注释符号去掉，同时指定在你的机器上JAVA_HOME的值，如下为我修改的内容： # The java implementation to use. Required.export JAVA_HOME=D:\Program Files\Java\jdk1.6.0_07 这里要注意，如果你的JDK安装目录中存在空格，需要使用双引号引起来，否则就会报错。启动Cygwin，当前它是在home/yourname目录下的，如图所示：切换到根目录下，从而进入G:\hadoop-0.16.4目录，并创建一个数据输入目录input-dir，如图所示：下面，打开G:\hadoop-0.16.4\input-dir，在该目录下新建几个记事本文件，例如我创建了3个：input-a.txt、input-b.txt、input-c.txt。三个文件的内容如下所示： input-a.txt：as after append actor as as add as apache as after add as input-b.txt：bench be bench believe background bench be block input-c.txt：cafe cat communications connection cat cat cat cust cafe 接着就可以执行Hadoop自带的一个统计英文单词出现频率的例子了，直接输入命令bin/hadoop jar hadoop-0.16.4-examples.jar wordcount input-dir output-dir，其中hadoop-0.16.4-examples.jar是G:\hadoop-0.16.4包中的例子，input-dir是数据输入目录，在里面已经存在我们创建的三个文件了，output-dir是经过Hadoop处理后的输出结果的目录，这里，你需要对Google的MapReduce算法有一个简单的了解，主要就是在处理数据的时候是怎样的一个流程，引用IBM上的一片技术文章片段了解一下：引用用 MapReduce 来处理大数据集的过程, 这个 MapReduce 的计算过程简而言之，就是将大数据集分解