- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE 1
实验指导
安装相关文件
将nutch-0.9,tomcat, paoding-analysis-2.0.4-alpha2,apache-ant-1.8.3 拷到D:\test\目录还要对Tomcat\webapps\nutch-0.9\WEB-INF\classes中的nutch-site.xml文件进行修改,其中value=D:\test\nutch-0.9\crawl\的值必须对应你所采集到的文件,并且环境变量的配置也必须改变),并配置环境变量(右击我的电脑高级环境变量,如下图)
如果没有安装jdk 需要先安装jdk 安装目录为:C:\Program Files\Java\jdk1.7.0
在用户变量中,编辑PATH,变量值D:\test\apache-ant-1.8.3\bin;C:\Program Files\Java\jdk1.7.0\bin
在系统变量中,新建ANT_HOME,变量值D:\test\apache-ant-1.8.3
在系统变量中,新建CATALINA_HOME,变量值D:\test\Tomcat
在系统变量中,编辑CLASSPATH,变量值
D:\test\nutch-0.9\src\plugin\lib-paoding-analyzers\paoding-analysis.jar; C:\Program Files\Java\jdk1.7.0\lib
在系统变量中,新建NUTCH_JAVA_HOME,变量值C:\Program Files\Java\jdk1.7.0
在系统变量中,新建PAODING_DIC_HOME,变量值D:\test\paoding-analysis-2.0.4-alpha2\dic
在系统变量中,新建JAVA_HOME,变量值C:\Program Files\Java\jdk1.7.0
运行tomcat,进入tomcat\bin文件夹,双击startup.bat.。打开浏览器,输入:8080/nutch-0.9,出现如下画面说明nutch 运行成功:
数据检索
下面我们就可以进行检索了,如输入“北京邮电大学”就可以看到检测结果。点击“评分详解”,还可以看到分词的结果,如下图所示:
查看索引分词结果
我们还可以用luke查看索引分词的结果,进入CMD,输入cd D: \test\nutch-0.9\ 回车
再输入 D: 回车 输入java -jar lukeall-3.5.0.jar
就可以看到如下画面;或者去D:\test\nutch-0.9\ lukeall-3.5.0.jar(点击)
点击“browse”,选择D:\test\nutch-0.9\crawl, 我们就可以看到索引分词结果了。我们也可以在luke中进行检索,选择“search”选项卡,输入“北京”就可以看到检索结果:
采集数据
如果想自己采集数据,还要安装cygwin软件。安装过程如下:
选择install from local directory
安装到的目录D:/cygwin
选择已经下载的安装文件所在的目录(安装包目录)
选择全部安装(install)
安装完成
配置抓取的起始网站地址
建立文本文件D:\test\nutch-0.9\ urls.txt,内容为:
该文本定义的是你要抓取的网站,可以自己选取
抓取
首先删除nutch-0.9中的crawl文件夹,双击Cygwin快捷方式,启动Cygwin
$ cd /cygdrive/d/test/nutch-0.9/
$ bin/nutch crawl urls.txt -dir crawl -depth 3 -topN 50
或者
$ bin/nutch crawl urls.txt -dir crawl -depth 3 crawl.log?
$ bin/nutch crawl urls.txt -dir crawl -depth 3 -threads 4
urls 就是刚才我们创建的url文件,存放我们要抓取的网址
-dir crawl 指定抓取内容所存放的目录,如上存在crawl中
-threads 4 指定并发的线程数
-depth 3 表示以要抓取网站顶级网址为起点的爬行深度
-topN 50 表示获取前多少条记录,可省
crawl.log 日志文件的存储地址,省略则将相关运行信息全部在控制台显示。
说明: 观察抓取后生成的目录
抓取后,在nutch目录下生成一个crawl文件夹,里面包含如下目录:
crawldb
linkdb
①/② crawldb/ linkdb:web link目录,存放url 及url的互联关系,作为爬行与重新爬行的依据,页面默认30天过期(可以在nutch-site.xml
文档评论(0)