nutch 信息抓取.ppt

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
nutch 信息抓取

Nutch 信息抓取浅析 主要内容 1.Nutch信息抓取定义 2.Nutch信息抓取框架及主要类 3.Nutch信息抓取流程及策略 4.Nutch信息抓取的信息存储 5.Nutch信息抓取命令 6.Nutch信息抓取的主要配置文件及重要参数 Nutch信息抓取定义 信息抓取,狭义上指向web服务器发送请求,从而下载网页到本地的过程;广义上涵盖了种子url的确定、dns解析、http请求、网页内容提取、url提取与过滤等内容。 Nutch的信息抓取模式分为两种: 1.局域网抓取:网站较少,网页集中 2.互联网抓取:网站多,网页数量庞大 Nutch信息抓取框架 信息抓取主要的类 org.apache.nutch.crawl.Injector:用来给抓取数据库添加URL的插入器 org.apache.nutch.crawl.Generator:用来生成待下载任务列表的生成器 org.apache.nutch.fetcher.Fetcher:完成抓取特定页面的抓取器 org.apache.nutch.crawl.CrawlDB:负责内容提取和对下级URL提取的内容进行解析的解析器 org.apache.nutch.crawl.LinkDB:负责web数据库的链接管理 Nutch信息抓取流程 1、注入种子url(org.apache.nutch.crawl.Injector) 2、生成web数据库和segment(一个segment代表一次爬取) (org.apache.nutch.crawl.Crawl) 3、获取待爬取队列,并请求队列中的一个url (org.apache.nutch.fetcher.Fetcher) 4.解析url,提取新的链接,并更新segment (org.apache.nutch.parse.Parser) 信息爬取策略 多线程(Fetcher) 广度优先爬取、迭代爬取 待爬取url分配策略:按照域名(domain)分配的队列机制 更新爬取:segment的删除和更新 Nutch信息存储 爬取过程产生的文件: CrawlDB:存储了两种实体的信息:page(网页的特征信息:如抓取时间,外链数)和link(page直接的链接关系)。 Segment :存储爬取的网页及其索引 LinkDB:链接数据库,用来存储链接 Nutch爬取的命令 1、crawl命令:完成所有抓取任务,适合局域网抓取和小范围抓取 命令模板: bin/nutch crawl urlDir [-dir d] [-threads n] [-depth i] [-topN] 相关参数: urlDir:包括URL列表的文本文件,它是一个已存在的文件夹。 ??? [-dir d]:Nutch保存爬取记录的工作目录,默认情况下值为:./crawl-[date],date为当前 Nutch爬取详细命令 admin:创建web数据库 inject:注入种子url general:生成待下载url列表 fetch:下载网页具体内容 updatedb:更新待爬取url,主要是把当前一轮新获取的外链加入web数据库 信息抓取主要配置文件 nutch-default.xml nutch-site.xml regex-urlfilter.txt regex-normalize.xml domain-urlfilter.xml nutch-default.xml property name/name value/value descriptionHTTP ‘User-Agent’请求头.必须不是空的 /description /property nutch-default.xml 其他重要参数: http.timeout:http请求的时间限制 http.max.delays:网页获取的最大重试次数 http.content.limit:网页内容下载限制 erval:默认重新抓取一个页面间隔的天数 fetcher.server.delay:抓取器在同一服务器的逐次请求所延迟的秒数 regex-urlfilter.txt 规则:每个以‘+’或‘-’开头的没注释并且非空白行都包含一个正则表达式 regex-normalize.xml domain-urlfilter.xml Thank you!

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档