信息检索实验报告.doc

下载文档

0
0
约3.79千字
约 10页
2023-10-11 发布于湖北
举报
版权申诉
保障服务

信息检索实验报告.doc

1、本文档共10页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

PAGE 1 实验指导安装相关文件将nutch-0.9，tomcat, paoding-analysis-2.0.4-alpha2，apache-ant-1.8.3 拷到D：\test\目录还要对Tomcat\webapps\nutch-0.9\WEB-INF\classes中的nutch-site.xml文件进行修改，其中value=D:\test\nutch-0.9\crawl\的值必须对应你所采集到的文件，并且环境变量的配置也必须改变），并配置环境变量（右击我的电脑高级环境变量，如下图）如果没有安装jdk 需要先安装jdk 安装目录为：C:\Program Files\Java\jdk1.7.0 在用户变量中，编辑PATH，变量值D:\test\apache-ant-1.8.3\bin;C:\Program Files\Java\jdk1.7.0\bin 在系统变量中，新建ANT_HOME，变量值D:\test\apache-ant-1.8.3 在系统变量中，新建CATALINA_HOME，变量值D:\test\Tomcat 在系统变量中，编辑CLASSPATH，变量值 D:\test\nutch-0.9\src\plugin\lib-paoding-analyzers\paoding-analysis.jar; C:\Program Files\Java\jdk1.7.0\lib 在系统变量中，新建NUTCH_JAVA_HOME，变量值C:\Program Files\Java\jdk1.7.0 在系统变量中，新建PAODING_DIC_HOME，变量值D:\test\paoding-analysis-2.0.4-alpha2\dic 在系统变量中，新建JAVA_HOME，变量值C:\Program Files\Java\jdk1.7.0 运行tomcat，进入tomcat\bin文件夹，双击startup.bat.。打开浏览器，输入:8080/nutch-0.9,出现如下画面说明nutch 运行成功：数据检索下面我们就可以进行检索了，如输入“北京邮电大学”就可以看到检测结果。点击“评分详解”，还可以看到分词的结果，如下图所示：查看索引分词结果我们还可以用luke查看索引分词的结果，进入CMD，输入cd D: \test\nutch-0.9\ 回车再输入 D: 回车输入java -jar lukeall-3.5.0.jar 就可以看到如下画面；或者去D:\test\nutch-0.9\ lukeall-3.5.0.jar(点击) 点击“browse”，选择D:\test\nutch-0.9\crawl，我们就可以看到索引分词结果了。我们也可以在luke中进行检索，选择“search”选项卡，输入“北京”就可以看到检索结果：采集数据如果想自己采集数据，还要安装cygwin软件。安装过程如下：选择install from local directory 安装到的目录D:/cygwin 选择已经下载的安装文件所在的目录(安装包目录) 选择全部安装(install) 安装完成配置抓取的起始网站地址建立文本文件D:\test\nutch-0.9\ urls.txt,内容为: 该文本定义的是你要抓取的网站，可以自己选取抓取首先删除nutch-0.9中的crawl文件夹，双击Cygwin快捷方式,启动Cygwin $ cd /cygdrive/d/test/nutch-0.9/ $ bin/nutch crawl urls.txt -dir crawl -depth 3 -topN 50 或者 $ bin/nutch crawl urls.txt -dir crawl -depth 3 crawl.log？ $ bin/nutch crawl urls.txt -dir crawl -depth 3 -threads 4 urls 就是刚才我们创建的url文件,存放我们要抓取的网址 -dir crawl 指定抓取内容所存放的目录，如上存在crawl中 -threads 4 指定并发的线程数 -depth 3 表示以要抓取网站顶级网址为起点的爬行深度 -topN 50 表示获取前多少条记录，可省 crawl.log 日志文件的存储地址，省略则将相关运行信息全部在控制台显示。说明：观察抓取后生成的目录抓取后，在nutch目录下生成一个crawl文件夹，里面包含如下目录： crawldb linkdb ①/② crawldb/ linkdb：web link目录，存放url 及url的互联关系，作为爬行与重新爬行的依据，页面默认30天过期（可以在nutch-site.xml