网络爬虫de基础知识.pptVIP

下载本文档

0
0
约2.03千字
约 37页
2025-03-22 发布于广西
举报
版权申诉

网络爬虫de基础知识.ppt

1、本文档共37页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网络爬虫;网络爬虫;1、网络爬虫简介;1.1网络爬虫定义;1.2用途;1.3原理;2、通用网络爬虫和聚焦爬虫;2.1前言;为了解决通用有哪些信誉好的足球投注网站引擎的局限性，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫与通用爬虫不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。;2.2通用网络爬虫;2.3聚焦爬虫;2.4两种爬虫比较;相对于通用网络爬虫，聚焦爬虫还需要解决三个主要问题：

(1)对抓取目标的描述或定义；

(2)对网页或数据的分析与过滤；

(3)对URL的有哪些信誉好的足球投注网站策略。

抓取目标的描述和定义是决定网页分析算法与URL有哪些信誉好的足球投注网站策略如何制订的根底。而网页分析算法和候选URL排序算法是决定有哪些信誉好的足球投注网站引擎所提供的效劳形式和爬虫网页抓取行为的关键所在。这两个局部的算法又是紧密相关的。;3、网络爬虫的抓取策略;3.1网页有哪些信誉好的足球投注网站策略;3.1.1广度优先有哪些信誉好的足球投注网站策略;另外一种方法是将广度优先有哪些信誉好的足球投注网站与网页过滤技术结合使用，先用广度优先策略抓取网页，再将其中无关的网页过滤掉。这些方法的缺点在于，随着抓取网页的增多，大量的无关网页将被下载并过滤，算法的效率将变低。;3.1.2最正确优先有哪些信誉好的足球投注网站策略;存在的一个问题是，在爬虫抓取路径上的很多相关网页可能被忽略，因为最正确优先策略是一种局部最优有哪些信誉好的足球投注网站算法。因此需要将最正确优先结合具体的应用进行改进，以跳出局部最优点。研究说明，这样的闭环调整可以将无关网页数量降低30%-90%。;3.2爬行策略;网页爬虫的行为通常是四种策略组合的结果：

(a)选择策略，决定所要下载的页面；

(b)重新访问策略，决定什么时候检查页面的更新变化；

(c)平衡礼貌策略，指出怎样防止站点超载；

(d)并行策略，指出怎么协同到达分布式抓取的效果。;选择策略;Cho〔曹〕等人做了第一份抓取策略的研究。他们的数据是斯坦福大学网站中的18万个页面，使用不同的策略分别模仿抓取。排序的方法使用了广度优先，后链计数，和局部pagerank算法。计算显示，如果你想要优先下载pagerank高的页面，那么，局部PageRank策略是比较好的，其次是广度优先和??链计数。并且，这样的结果仅仅是针对一个站点的。

Abiteboul设计了一种基于OPIC〔在线页面重要指数〕的抓取战略。在OPIC中，每一个页面都有一个相等的初始权值，并把这些权值平均分给它所指向的页面。这种算法与PageRank相似，但是它的速度很快，并且可以一次完成。OPIC的程序首先抓取获取权值最大的页面，实验在10万个幂指分布的模拟页面中进行。但是，实验没有和其它策略进行比较，也没有在真正的WEB页面测试。

Baeza-Yates等人在从.gr域名和.cl域名子网站上获取的300万个页面上模拟实验，比较假设干个抓取策略。结果显示OPIC策略和站点队列长度，都比广度优先要好；并且如果可行的话，使用之前的爬行抓取结果来指导这次抓取，总是十分有效的。;重新访问策略;新鲜度：这是一个衡量抓取内容是不是准确的二元值。在时间t内，仓库中页面p的新鲜度是这样定义的：

过时性:这是一个衡量本地已抓取的内容过时程度的指标。在时间t时，仓库中页面p的时效性的定义如下：

;平衡礼貌策略;对这些问题的一个局部解决方法是漫游器排除协议〔Robotsexclusionprotocol〕，即REP协议，这份协议对于管理员指明网络效劳器的那一局部不能到达是一个标准。这个标准没有包括重新访问一台效劳器的间隔的建议，虽然访问间隔是防止效劳器超载的最有效的方法。最近的商业有哪些信誉好的足球投注网站软件，如AskJeeves，MSN和Yahoo可以在robots.txt中使用一个额外的“Crawl-delay”参数来指明请求之间的延迟。;并行策略;4、几种常见的网络爬虫;4.1Google爬虫;早期的Google爬虫系统由5个模块处理不同的任务。一个URL效劳器从磁盘文件读URL列表并将其转发到Crawler上。每个Crawler单独运行在一台机器上，采用单线程异步10方式，一次维持300个连接并行爬行。Crawler将网页传输到存储效劳器上压缩并保存。索引进程从HTML页面中抽取链接并存放在不同的文件中。一个URL解析器读取这些链接文件并转化为绝对路径，由URL效劳器读取。

;后期Google的改进主要有：

(1)采用自有的文件系统(GFS)和数据库系统(BigTable)来存取数据；

(2)采用MapReduce技术来分布式处理各种数据的运算。;4.2Mercator;4.3北大天网;4.4Internet

您可能关注的文档

文档评论（0）

199****8042 + 关注: 实名认证

文档贡献者

相信自己，相信明天

咨询Ta 进入空间

1亿VIP精品文档

更多 >

网络爬虫de基础知识.pptVIP