网站大量收购独家精品文档,联系QQ:2885784924

第二章 网络爬虫技能概述.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络爬虫 网络爬虫实际上是一种“自动化浏览网络”的程序,或者说是一种网络机器人,被广泛 用于互联网有哪些信誉好的足球投注网站引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以 自动采集所有其能够访问到的页面内容,以供有哪些信誉好的足球投注网站引擎做进一步处理(分检整理下载的页 面),而使得用户能更快的检索到他们需要的信息。 网络上的HTML 文档使用超链接连接了起来,就像织成了一张网,网络爬虫顺着这张 网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接, 作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬,这个起点叫做种子,你可以告 诉它,也可以到一些网址列表网站上获取。 网络爬虫可以抓取 Web 网页、文档甚至图片、音频、视频等资源,通过相应的索引技 术组织这些信息,提供给用户进行查询。随着网络的迅速发展,不断优化的网络爬虫技术正 在有效地应对各种挑战,为高效有哪些信誉好的足球投注网站用户关注的特定领域与主题提供了有力支撑。 传统爬虫从一个或若干初始网页的URL 开始,获得初始网页上的URL ,在抓取网页的 过程中,不断从当前页面上抽取新的URL 放入队列,直到满足系统的一定停止条件。 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫 (General Purpose Web Crawler )、聚焦网络爬虫(Focused Web Crawler )、增量式网络爬虫 (Incremental Web Crawler )、深层网络爬虫(Deep Web Crawler )。 实际的网络爬虫系统通 常是几种爬虫技术相结合实现的。 1. 通用网络爬虫 通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充 到整个 Web ,主要为门户站点有哪些信誉好的足球投注网站引擎和大型 Web 服务提供商采集数据。由于商业原因, 它们的技术细节很少公布出来。 这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存 储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采 用并行工作方式,但需要较长时间才能刷新一次页面。 虽然存在一定缺陷,通用网络爬虫 适用于为有哪些信誉好的足球投注网站引擎有哪些信誉好的足球投注网站广泛的主题,有较强的应用价值。 通用网络爬虫的结构大致可以分为页面爬行模块 、页面分析模块、链接过滤模块、页 面数据库、URL 队列、初始 URL 集合几个部分。为提高工作效率,通用网络爬虫会采取 一定的爬行策略。 常用的爬行策略有:深度优先策略、广度优先策略。 2. 聚焦网络爬虫 聚焦网络爬虫(Focused Crawler ),又称主题网络爬虫(Topical Crawler ),是指选择性地 爬行那些与预先定义好的主题相关页面的网络爬虫。如果要采集指定的数据,则需要使用到 聚焦爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬 件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定 领域信息的需求。 聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接, 保留有用的链接并将其放入等待抓取的URL 队列。然后,它将根据一定的有哪些信誉好的足球投注网站策略从队列 中选择下一步要抓取的网页 URL ,并重复上述过程,直到达到系统的某一条件时停止。另 外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之 后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程 给出反馈和指导。 相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题: 1、对抓取目标的描述或定义; 2 、对网页或数据的分析与过滤; 3、对URL 的有哪些信誉好的足球投注网站策略。 聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫 爬行策略实现的关键是评价页面内容和链接的重要性,不同的方法计算出的重要性不同,由 此导致链接的访问顺序也不同。 3. 增量式网络爬虫 增量式网络爬虫(Incremental Web Crawler )是 指 对 已 下 载 网 页 采 取 增 量式 更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页 面是尽可能新的页面。 和周期性爬行和刷新页面的网络爬虫相比,增量式爬虫只会在需要 的时候爬行新产生或发生更新的页面 ,并不重新下载没有发生变化的页面,可有效减少数 据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是

您可能关注的文档

文档评论(0)

153****1683 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档