- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
高性能网页抓取调度策略
Fengyun Cao Dongming Jiang Jaswinder Pal Singh
{fcao, dj, jps}@
Department of Computer Science, Princeton University
Princeton, NJ 08540, USA
摘要
网络爬虫是有哪些信誉好的足球投注网站引擎、数据挖掘等互联网应用的重要组成部分。对Web页面下载调度是爬虫的一个重要方面。以前基于Web抓取的研究侧重于优化爬行速度和下载网页的质量。虽然这两个指标是重要的,但若只考虑其中之一是不够的,也许会使整个抓取过程出现偏差。本文探讨了抓取调度的设计准则,以平衡性能和质量为目的并优化全网抓取的效率。我们设计了一个网络高效的调度框架,并用它来评估各种调度策略。我们还定义了一个新的调度算法,将网络性能和网页质量纳入调度决策。实际的实验清楚地证明了两级调度方案的有效性,以及新算法对于整体爬行效率的提高作用。实验还表明,爬行调度设计总能根据对应用性质有充分的了解而进行优化???
引言
网络爬虫是有哪些信誉好的足球投注网站引擎,数据挖掘等互联网应用的重要组成部分。递归下载网页入本地存储,如图1中的操作可以被简单地描述为以下四个步骤:
取一组种子URL作为首要任务的URL。
从URL集合中选取一个URL,并从网上下载页面。
提取网页中的超链接,如果URL符合要求,则将其添加到URL任务集合中。
重复步骤b和c,直到URL任务集合成为空或应用程序停止。
抓取调度策略就是要确定URL任务序列的顺序。给定时间窗T,不同的调度策略在T之内将抓取到完全不同的页面集合。
图1. 网络爬虫的运行模式。
(控制流由实线表示,数据流由虚线表示)。
由于万维网的爆炸式增长,抓取一个有效的哪怕是具有显著特点的页面也变得非常有挑战性:各大有哪些信誉好的足球投注网站引擎抓取十亿网页的典型时间是一个多星期[14][15];与此同时,大量的新的页面被创建,而许多已抓取的网页已经变更[2][9]。因此,网络爬虫只能访问那些早期被调度的页面。
在本文中,我们定义一个网络爬虫的整体效率为有限的时间内抓取的页面总的内容。基于上述原因,这个指标是非常重要的并具有普遍性。为了实现整体效率,爬虫面临着两大挑战:它应该以较高的速度下载网页,并且还选择性地优先抓取最有价值的网页。我们将它们称为性能指标和质量指标。这些指标大多数时候是被独立分开地研究的。
虽然这两个指标很重要,但若仅独立地考虑其中一方面则可能导致极大的偏差。例如,若只考虑性能指标,则可能导致爬虫拥有良好的连接速度却只能抓取到大量无用网页,而一味考虑爬行质量则可能因为偶然的几个高质量但速度极低网页而阻塞整个进程。这些情况从全局效率的角度来看都是不可接受的。
在本文中,我们将探讨网络抓取调度的设计准则,优化了全局抓取的效率。在下一节,我们简要回顾一下网页检索相关的研究工作。在第3节中,我们提出了一种两级调度架构。在第4节中,我们定义了三种调度算法,分别表示广度优先调度、性能优先调度和质量优先调度。我们还设计了一个新的全局策略,称为基于抓取能力调度,其同时考虑了性能和质量两方面的影响。我们实现了一个两级调度策略的网络爬虫,并对其进行了实验。在第5节,我们提出了实验结果和分析,证明了该算法在相应的度量下能有效提高抓取效率。事实上,新策略的提出,比以往任何算法都更有效地提高了总体效率。最后在第6节我们得出了结论并提出了未来的研究方向。
相关工作
关于Web抓取的文献大致可以分为两类:
各大有哪些信誉好的足球投注网站引擎[4] [15]设计的可以在单位时间内下载大量的页面的高性能爬虫。虽然形如PageRank [4] [21]等网页排名网站对于有哪些信誉好的足球投注网站程序是非常重要的,但目前尚不清楚它们是否对有哪些信誉好的足球投注网站引擎的抓取有作用,以及如果有,是怎样的作用。
其他的研究工作主要集中在网页的调度方面(下载这些页面之前,他们通过在抓取任务列表中的网址表示),通过它们的质量排名来进行:网页对于程序更有价值的排名较高,并且先于那些价值较低的网页被下载。网页质量的定义通过特定应用程序的需求来计算。在文献[6]中,聚焦爬虫寻求出相关的一组预定义主题的页面。在文献[8]中,由超链接引用的网页被认为是重要的,并给予较高的排名。其他网页的质量测量包括新鲜页[9] [10],以及用户定义的任意谓词[1]。文献[11]研究了一个URL排序的多个并行的抓取过程。虽然实验表明这些研究在早期对于下载高质量的网页非常有效,但目前还不清楚他们在时间限制下表现如何,以及是否结合了页面的质量优先等级来进一步提高抓取的全局效率。事实上,许多实验只是在本地的Web页面集合进行了“虚拟抓取”的模拟,因此,我们无法知道这些算法在实际的应用中会有怎样的表现。
结构设计
在本节中,我们提出我们的调度框架设计。我们首先回顾一下网络协议的功能
您可能关注的文档
- 高三化学双周练(三).doc
- 高三化学专题复习案例.ppt
- 隔震结构与减震结构与传统结构抗震设计(完全版).ppt
- 高三开学励志演讲--总有一个理由去奋斗.ppt
- 镉对小鼠肝脏毒性作用探讨-精品.doc
- 高三历史-2016届高三10月调研历史试题解析(解析版).doc
- 各班职责与工作流程2016-3.doc
- 高三历史二轮复习:中国古代史(先秦).ppt
- 高三历史复习历史分期和阶段特征.ppt
- 各大洲分界线.ppt
- 专题06 经济体制(我国的社会主义市场经济体制)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题11 世界多极化与经济全球化-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 专题03 经济发展与社会进步-5年(2020-2024)高考1年模拟政治真题分类汇编(浙江专用)(解析版).docx
- 专题09 文化传承与文化创新-5年(2020-2024)高考1年模拟政治真题分类汇编(北京专用)(原卷版).docx
- 5年(2020-2024)高考政治真题分类汇编专题08 社会进步(我国的个人收入分配与社会保障)(原卷版).docx
- 专题07 探索世界与把握规律-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 5年(2020-2024)高考政治真题分类汇编专题06 经济体制(我国的社会主义市场经济体制)(原卷版).docx
- 专题11 全面依法治国(治国理政的基本方式、法治中国建设、全面推进依法治国的基本要求)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题17 区域联系与区域协调发展-【好题汇编】十年(2015-2024)高考地理真题分类汇编(解析版).docx
- 专题01 中国特色社会主义-5年(2020-2024)高考1年模拟政治真题分类汇编(原卷版).docx
文档评论(0)