网络爬虫基本原理.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

网络爬虫根本原理

网络爬虫根据需求的不同分为不同种类:

1.?一种是爬取网页链接,通过url链接得到这个html页面中指定的链接,把这些链接存储起来,再依次以这些链接为源,再次爬取链接指向html页面中的链接……如此层层递归下去,常用的方法是广度优先或者深度优先,根据爬取层次需求不同而选择不同的方法到达最优效果,爬虫的效率优化是一个关键。有哪些信誉好的足球投注网站引擎的第一个步骤就是通过爬虫得到需要索引的链接或数据,存放于数据库,然后对这些数据建立索引,然后定义查询语句,解析查询语句并利用检索器对数据库里的数据进行检索。

2.?一种是爬取数据信息,如文本信息、图片信息等,有时需要做数据分析,通过某种手段来获取数据样本以供后续分析,常用的方法是爬虫获取指定数据样本或利用现有的公共数据库。本文的微博爬虫和新闻数据爬取都属于第二种类,根据自定义有哪些信誉好的足球投注网站关键字爬取微博信息数据。

3.?对于网络爬虫原理,其实并不复杂。根本思路是:由关键字指定的url把所有相关的html页面全抓下来〔html即为字符串〕,然后解析html文本〔通常是正那么表达式或者现成工具包如jsoup〕,提取微博文本信息,然后把文本信息存储起来。

重点在于对html页面源码结构的分析,不同的html需要不同的解析方法;还有就是长时间爬取可能对IP有影响,有时需要获取代理IP,甚至需要伪装浏览器爬取。〔主要是针对像新浪等这些具有反扒功能的网站,新闻网站一般不会有这样的情况〕。

对于微博,通常情况下是必须登录才能看到微博信息数据〔比方腾讯微博〕,但是有的微博有有哪些信誉好的足球投注网站机制,在非登录的情况下可以直接通过有哪些信誉好的足球投注网站话题来查找相关信息〔如新浪微博、网易微博〕。考虑到某些反爬虫机制,如果一个账号总是爬取信息可能会有些影响〔比方被封号〕,所以本文采用的爬虫都是非登录、直接进入微博有哪些信誉好的足球投注网站页面爬取。这里关键是初始url地址。

网络爬虫是有哪些信誉好的足球投注网站引擎抓取系统的重要组成局部。爬虫的主要目的是是将互联网上的网页下载到本地形成一个活互联网内容的镜像备份。这篇博客主要对爬虫及抓取系统进行一个简单的概述。

一、网络爬虫的根本结构及工作流程

通用的网络爬虫的框架如下图:

网络爬虫框架图

网络爬虫的根本工作流程如下:

1.首先选取一局部精心挑选的种子URL;

2.将这些URL放入待抓取URL队列

3.?从待抓取URL队列中取出待抓取URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。

4.?分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进行下一个循环。

二、从爬虫角度对互联网进行划分

可将互联网所有页面分为五个局部:

1.????已下载未过期网页

2.????已下载已过期网页:抓取到的网页实际上是互联网内容的一个镜像与备份,互联网是动态变化的,一局部互联网上的内容已经发生了变化,这时,这局部抓取到的网页就已经过期了。

3.????待下载网页:也就是带抓取URL队列中的那些页面

4.????克制网页:还没抓取下来,也没有在待抓取URL队列中,但是可以通过对已抓取页面或者待抓取URL对应页面进行分析获取到的URL,认为是可知网页

5.????还有一局部网页,爬虫是无法抓取下载的,称为不可知网页

三、抓取策略

在爬虫系统中,待抓取URL队列是很重要的一局部。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面,这也是所谓的抓取策略问题。下面重点介绍几种常见的抓取策略

1.????深度优先遍历策略

深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。

遍历的路径:A-F-G?E-H-IBCD

1.????宽度优先遍历策略

宽度优先遍历策略的根本思路是将新下载网页中发现的链接直接插入待抓取URL队列的末尾,也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页,以上图为例:遍历路径为:A-B-C-D-E-FGHI

2.????反向链接数策略

反向链接数是指一个网页被其他网页链接指向的数量,反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此,很多时候有哪些信誉好的足球投注网站引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。

在真实的网络环境中,由于广告链接、作弊链接的存在,反向链接数不能完全可靠,因此有哪些信誉好的足球投注网站引擎往往考虑一些可靠的反向链接数

4.PartialPageRank策略

PartialPageRank算法借鉴了PageRank算法的思想:对于已经下载的网页,连同待爬取URL队列中的URL,

您可能关注的文档

文档评论(0)

147****4268 + 关注
实名认证
内容提供者

认真 负责 是我的态度

1亿VIP精品文档

相关文档