- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
nutch网页爬取总结
Nutch网页爬取总结目录前言2Nutch搭建过程[1]21 准备工作22 开始部署22.1 安装linux系统22.2 安装jdk22.3.配置nutch创建索引32.4安装tomcat62.5配置nutch查询索引6参考文献9Nutch爬取内容解析[1]101 Nutch的输出文件101.1 Crawldb101.2 Linkdb101.3 Segments101.4 Indexes121.5 Index122 Nutch爬取内容解析132.1 nutch的所有命令[2]132.2 nutch的页面转存命令192.3 nutch页面转存程序21参考文献21Nutch的爬取设置和配置文件221 nutch的爬取深度222 nutch的配置文件[2]232.1 配置文件的优先级232.2 配置文件详解252.3 nutch抓取动态网页配置[3]332.4 关于配置文件的一些细节问题[4][5]34参考文献36后序内容37前言学习使用nutch的时间加起来能有一个月了,在网上也搜集了不少的资料,但是比较零散,所以想把这一个月使用它的全部过程、原理的讲解和中间的注意事项总结一下。主要汇总写网上已有的资料,方便查阅嘛。Nutch搭建过程[1]1 准备工作我是在virtualbox下用虚拟机进行的nutch搭建,所需要的工具如下:(1)Virtualbox必威体育精装版版(2)ubuntu-desktop必威体育精装版版(以后会改为ubuntu-server)(3)jdk-6u25-linux-i586.bin(4)apache-nutch-1.2-bin.tar.gz2 开始部署2.1 安装linux系统首先安装VirtualBox,然后安装ubuntu,就是传统的安装方法。上传所用的包到linux系统~/tmp目录下,~表示用户目录。2.2 安装jdk终端命令?#cd??~/tmp??#chmod?a+x??jdk-6u23-linux-i586.bin??#sh?jdk-6u23-linux-i586.bin??#mkdir?/usr/java??#mv?jdk1.6.0_23??/usr/java/??配置用户环境变量[2]这个比较重要,最开始nutch多次爬取失败,就是因为环境变量配置的不对。最开始是在~/.bash_profile下配置,后来又在/etc/profile下配置,但是由于nutch有些命令需要管理员权限,当进入管理员权限时,上述配置的环境变量就不生效了,所以最后在/etc/environment下配置环境变量才好使。在/etc/profile下配置环境变量(这个最好也配置上吧)。终端命令?#sudu gedit /etc/profile??(在该文件中添加如下内容)export JAVA_HOME=/usr/java/jdk1.6.0_25??export JRE_HOME=/usr/java/jdk5/jre??export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH??export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH在/etc/environment下配置环境变量。终端命令?sudu gedit /etc/environment (在该文件中添加如下内容) JAVA_HOME=/usr/java/jdk1.6.0_25??JRE_HOME=/usr/java/jdk5/jre??CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH??PATH直接在该文件本来有的PATH后面添加即可注意1:每段路径中间用冒号(:)分开,别忘记了那个点(.)注意2:在尝试的过程中,environment文件内容的错误添加可能导致电脑无法进入,反复的停留在登陆界面。(我在最开始修改这个文件的时候遇到过),只需按crl+alt+F2,在命令行界面把错误的修改删除即可。测试终端命令?#java?–version??输出java version 1.6.0_25Java(TM) SE Runtime Environment (build 1.6.0_25-b05)Java?HotSpot(TM) Client VM (build 19.0-b09, mixed mode, sharing)Jdk安装成功另外,在终端下输入env,能够看到所有已经配置的环境变量,看看是否有这几个变量。输入sudo su,然后输入env,看在管理员权限下,是否有这几个变量。2.3.配置nutch创建索引终端命令?#unzip?apache-nutch-1.2-bin.zip??#mv?nut
文档评论(0)