nutch分布式搭建文档(测试成功).doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
nutch分布式搭建文档(测试成功)

Nutch环境分布式搭建 搭建集群hadoop. 选取2台服务器如下: ip hostname 82 master 42 slave1 配置服务器 分别用root用户登录所有服务器,创建相同用户hadooptest/hadooptest useradd hadooptest passwd hadooptest 然后输入密码hadooptest 分别修改两台服务器的hostname为master和slave1 hostname master 修改配置文件中的hostname vim /etc/sysconfig/network 为2台服务器配置ssh。 (1).以hadooptest用户登录master机器,在终端中输入 ssh-keygen -t rsa -P 如下图所示,直接回车 (2).在slave机器上hadoop的主文件夹下进入.ssh,可以查看到两个文件,修改.ssh文件夹的权限 mv core-default.xml core-site.xml mv hdfs-default.xml hdfs-site.xml mv mapred-default.xml mapred-site.xml 打开hadoop-env.sh,修改如下地方: 打开core-site.xml修改2处地方: 地址为hadoop主文件夹所在位置 Ip指向master. 打开hdfs-site.xml修改如下地方: 文件保存的份数 Secondnamenode地址 value值根据具体slave个数而定。个数少一半为1 打开mapred-site.xml修改如下地方: 地址为master ip 打开masters修改为如下: 打开slaves,将所有slave机的ip添加进去,每行一个 配置完后用命令 scp -rp conf/ hadooptest@42:~/programs/hadoop-1.0.3/ 将conf配置文件夹拷贝到所有slave机器上。 注意: hadoop-env.sh中的jdk路径,要调整为和每台slave机上的路径一样。 (拷贝前root登录,用 /etc/init.d/iptables stop关闭slave机上的防火墙) 5.启动hadoop 登录master机。用命令: bin/hadoop namenode -format 格式化namenode。 启动hadoop bin/start-all.sh (注:若启动过程中出现不能连接,确认是否关闭防火墙了。Master机上启动hadoop后,slave机上会自动启动。) 启动成功后通过 masterIp:50030和 masterIp:50070查看,如图: 至此,hadoop搭建成功。 编译配置nutch. a) 编译生成nutch 下载apache-nutch-1.6-src.zip. 本地安装ant 解压开,在cmd中进入主目录,然后运行ant 最后生成的runtime目录为所需目录 将runtime目录上传到master服务器。 b) 配置nutch 将hadoop的conf下的core-site.xml,hadoop-env.sh,hdfs-site.xml,mapred-site.xml,masters,slaves文件拷贝到nutch的conf下 cp ~/programs/hadoop-1.0.3/conf/core-site.xml ~/programs/nutch1.6/runtime/local/conf/ cp ~/programs/hadoop-1.0.3/conf/hadoop-env.sh ~/programs/nutch1.6/runtime/local/conf/ cp ~/programs/hadoop-1.0.3/conf/hdfs-site.xml ~/programs/nutch1.6/runtime/local/conf/ cp ~/programs/hadoop-1.0.3/conf/mapred-site.xml ~/programs/nutch1.6/runtime/local/conf/ cp ~/programs/hadoop-1.0.3/conf/masters ~/programs/nutch1.6/runtime/local/conf/ cp ~/programs/hadoop-1.0.3/conf/slaves ~/programs/nutch1.6/runtime/local/conf/ 配置nutch-site.xml. 简单配置一个 regex-urlfilter.txt # accept anything else +^http://([a-z0-9]*\.)*3158.cn/(

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档