nutch 信息抓取.ppt

下载文档 降价啦

4
0
约1.94千字
约 17页
2018-03-07 发布于湖北
举报
版权申诉
保障服务

nutch 信息抓取.ppt

1、本文档共17页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

nutch 信息抓取

Nutch 信息抓取浅析主要内容 1.Nutch信息抓取定义 2.Nutch信息抓取框架及主要类 3.Nutch信息抓取流程及策略 4.Nutch信息抓取的信息存储 5.Nutch信息抓取命令 6.Nutch信息抓取的主要配置文件及重要参数 Nutch信息抓取定义信息抓取，狭义上指向web服务器发送请求，从而下载网页到本地的过程；广义上涵盖了种子url的确定、dns解析、http请求、网页内容提取、url提取与过滤等内容。 Nutch的信息抓取模式分为两种： 1.局域网抓取：网站较少，网页集中 2.互联网抓取：网站多，网页数量庞大 Nutch信息抓取框架信息抓取主要的类 org.apache.nutch.crawl.Injector：用来给抓取数据库添加URL的插入器 org.apache.nutch.crawl.Generator：用来生成待下载任务列表的生成器 org.apache.nutch.fetcher.Fetcher：完成抓取特定页面的抓取器 org.apache.nutch.crawl.CrawlDB:负责内容提取和对下级URL提取的内容进行解析的解析器 org.apache.nutch.crawl.LinkDB：负责web数据库的链接管理 Nutch信息抓取流程 1、注入种子url（org.apache.nutch.crawl.Injector） 2、生成web数据库和segment（一个segment代表一次爬取）（org.apache.nutch.crawl.Crawl） 3、获取待爬取队列，并请求队列中的一个url （org.apache.nutch.fetcher.Fetcher） 4.解析url，提取新的链接，并更新segment （org.apache.nutch.parse.Parser）信息爬取策略多线程（Fetcher）广度优先爬取、迭代爬取待爬取url分配策略：按照域名（domain）分配的队列机制更新爬取：segment的删除和更新 Nutch信息存储爬取过程产生的文件： CrawlDB：存储了两种实体的信息：page（网页的特征信息：如抓取时间，外链数）和link（page直接的链接关系）。 Segment ：存储爬取的网页及其索引 LinkDB：链接数据库，用来存储链接 Nutch爬取的命令 1、crawl命令：完成所有抓取任务，适合局域网抓取和小范围抓取命令模板： bin/nutch crawl urlDir [-dir d] [-threads n] [-depth i] [-topN] 相关参数： urlDir：包括URL列表的文本文件，它是一个已存在的文件夹。 ??? [-dir d]：Nutch保存爬取记录的工作目录，默认情况下值为：./crawl-[date]，date为当前 Nutch爬取详细命令 admin：创建web数据库 inject：注入种子url general：生成待下载url列表 fetch：下载网页具体内容 updatedb：更新待爬取url，主要是把当前一轮新获取的外链加入web数据库信息抓取主要配置文件 nutch-default.xml nutch-site.xml regex-urlfilter.txt regex-normalize.xml domain-urlfilter.xml nutch-default.xml property name/name value/value descriptionHTTP ‘User-Agent’请求头.必须不是空的 /description /property nutch-default.xml 其他重要参数：http.timeout：http请求的时间限制 http.max.delays：网页获取的最大重试次数 http.content.limit：网页内容下载限制 erval：默认重新抓取一个页面间隔的天数 fetcher.server.delay：抓取器在同一服务器的逐次请求所延迟的秒数 regex-urlfilter.txt 规则：每个以‘+’或‘-’开头的没注释并且非空白行都包含一个正则表达式 regex-normalize.xml domain-urlfilter.xml Thank you！