- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
nutch分布式搭建文档(测试成功)
Nutch环境分布式搭建
搭建集群hadoop.
选取2台服务器如下:
ip hostname 82 master 42 slave1
配置服务器
分别用root用户登录所有服务器,创建相同用户hadooptest/hadooptest
useradd hadooptest
passwd hadooptest
然后输入密码hadooptest
分别修改两台服务器的hostname为master和slave1
hostname master
修改配置文件中的hostname
vim /etc/sysconfig/network
为2台服务器配置ssh。
(1).以hadooptest用户登录master机器,在终端中输入
ssh-keygen -t rsa -P
如下图所示,直接回车
(2).在slave机器上hadoop的主文件夹下进入.ssh,可以查看到两个文件,修改.ssh文件夹的权限
mv core-default.xml core-site.xml
mv hdfs-default.xml hdfs-site.xml
mv mapred-default.xml mapred-site.xml
打开hadoop-env.sh,修改如下地方:
打开core-site.xml修改2处地方:
地址为hadoop主文件夹所在位置
Ip指向master.
打开hdfs-site.xml修改如下地方:
文件保存的份数
Secondnamenode地址
value值根据具体slave个数而定。个数少一半为1
打开mapred-site.xml修改如下地方:
地址为master ip
打开masters修改为如下:
打开slaves,将所有slave机的ip添加进去,每行一个
配置完后用命令
scp -rp conf/ hadooptest@42:~/programs/hadoop-1.0.3/
将conf配置文件夹拷贝到所有slave机器上。
注意: hadoop-env.sh中的jdk路径,要调整为和每台slave机上的路径一样。
(拷贝前root登录,用 /etc/init.d/iptables stop关闭slave机上的防火墙)
5.启动hadoop
登录master机。用命令:
bin/hadoop namenode -format
格式化namenode。
启动hadoop
bin/start-all.sh
(注:若启动过程中出现不能连接,确认是否关闭防火墙了。Master机上启动hadoop后,slave机上会自动启动。)
启动成功后通过 masterIp:50030和 masterIp:50070查看,如图:
至此,hadoop搭建成功。
编译配置nutch.
a) 编译生成nutch
下载apache-nutch-1.6-src.zip.
本地安装ant
解压开,在cmd中进入主目录,然后运行ant
最后生成的runtime目录为所需目录
将runtime目录上传到master服务器。
b) 配置nutch
将hadoop的conf下的core-site.xml,hadoop-env.sh,hdfs-site.xml,mapred-site.xml,masters,slaves文件拷贝到nutch的conf下
cp ~/programs/hadoop-1.0.3/conf/core-site.xml ~/programs/nutch1.6/runtime/local/conf/
cp ~/programs/hadoop-1.0.3/conf/hadoop-env.sh ~/programs/nutch1.6/runtime/local/conf/
cp ~/programs/hadoop-1.0.3/conf/hdfs-site.xml ~/programs/nutch1.6/runtime/local/conf/
cp ~/programs/hadoop-1.0.3/conf/mapred-site.xml ~/programs/nutch1.6/runtime/local/conf/
cp ~/programs/hadoop-1.0.3/conf/masters ~/programs/nutch1.6/runtime/local/conf/
cp ~/programs/hadoop-1.0.3/conf/slaves ~/programs/nutch1.6/runtime/local/conf/
配置nutch-site.xml.
简单配置一个
regex-urlfilter.txt
# accept anything else
+^http://([a-z0-9]*\.)*3158.cn/(
文档评论(0)