nutch应用文库.docVIP

下载本文档

2
0
约4.93千字
约 6页
2016-09-20 发布于重庆
举报
版权申诉

nutch应用文库.doc

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

nutch应用文库

nutch应用文库.txt第一次笑是因为遇见你，第一次哭是因为你不在，第一次笑着流泪是因为不能拥有你。首先需要建立一个空的URL数据库，并且把起始根urls添加到URL数据库中（步骤1），依据URL数据库在新创建的segment中生成fetchlist，存放了待爬行的URLs（步骤2），根据fetchlist从Internet进行相关网页内容的爬行抓取与下载（步骤3），随后把这些抓取到的内容解析成文本与数据（步骤4），从中提取出新的网页链接URL，并对URL数据库进行更新（步骤5），重复步骤2-5直到达到被指定的爬行抓取深度。以上过程构成了Nutch的整个抓取过程，可以用一个循环来对其进行描述：生成→抓取→更新→循环。当抓取过程完成后，对抓取到的网页进行反向索引，对重复的内容与URL进行剔除，然后对多个索引进行合并，为有哪些信誉好的足球投注网站建立统一的索引库，而后用户可通过由Tomcat容器提供的Nutch用户界面提交有哪些信誉好的足球投注网站请求，然后由Lucene对索引库进行查询，并返回有哪些信誉好的足球投注网站结果给用户，完成整个有哪些信誉好的足球投注网站过程。 Nutch程序采用Java语言编写，其运行环境需要一个Tomcat容器。本文运行环境以必威体育精装版的j2sdk1.4.2_12及jakarta-tomcat-5.0.28为例。使用Nutch进行数据抓取 Nutch通过运行网络爬虫工具进行网络内容的抓取，它提供了爬行企业内部网与爬行整个互联网这两种方式。 ● 爬行企业内部网爬行企业内部网（Intranet Crawling）这种方式适合于针对一小撮Web服务器，并且网页数在百万以内的情况。它使用crawl命令进行网络爬行抓取。在进行爬行前，需要对Nutch进行一系列的配置，过程如下：首先，需要创建一个目录，并且在此目录中创建包含起始根URLs的文件。我们以爬行搜狐网站（）为例进行讲述。 #cd /usr/local/nutch #mkdir urls #touch urls/sohu 因此文件urls/sohu的内容为：/。依据爬行网站的实际情况，可继续在此文件末尾添加其他URL或者在URL目录里添加其他包含URL的文件。需要注意的是，在Nutch0.7的版中不需要创建目录，直接创建包含起始根URL的文件即可。接下来，要编辑conf/crawl-urlfilter.txt文件，将文中MY.DOMAIN.NAME部分替换为准备爬行的域名，并去掉前面的注释。因此在本文中进行域名替换后的形式为： +^http://([a-z0-9]*\.)*/ 文件conf/crawl-urlfilter.txt主要用于限定爬行的URL形式，其中URL的形式使用正则表达式进行描述。然后，编辑文件conf/nutch-site.xml，并且必须包含以下内容： ?xml version=1.0? ?xml-stylesheet type=text/xsl href=configuration.xsl? configuration property name /name value /value description /description /property /configuration 除外，在 configuration /configuration间一般还包括http.agent.description、http.agent.url、http.agent.email这三个选项。最后，开始爬行抓取。完成对Nutch的配置后，运行crawal命令进行爬行。在本文中爬行脚本为： #bin/nutch crawl urls -dir sohu -depth 5 -topN 1000 其中命令行中各参数项含义分别为：dir指定爬行结果的存放目录，此处dir为sohu;depth指定从根URL起将要爬行的深度，此例depth设定为5;N设定每一层爬行靠前的N个URL，此例N值设定为1000。另外，crawl还有一个参数项:threads，它设定并行爬行的进程数。在爬行过程中，可通过Nutch日志文件查看爬行的进展状态，爬行完成后结果存放在sohu目录里。 ● 爬行整个互联网爬行整个互联网（Whole-web crawling）是一种大规模网络爬行，与第一种爬行方式相对，具有更强的控制性，使用inject、generate、fetch、updatedb等比较低层次的命令，爬行量大，可能需要数台机器数周才能完成。首先，需要下载一个包含海量URL的文件。下载完成后，将其拷贝到Nutch主目录，并且解压缩文件。