- 1、本文档共47页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络爬虫 1、网络爬虫简介 2、通用网络爬虫和聚焦爬虫 3、网络爬虫的抓取策略 4、几种常见的网络爬虫 5、Metaseeker 1、网络爬虫简介 1.1 定义 1.2 用途 1.3 原理 1.1 网络爬虫定义 网络爬虫(Crawler)又被称为网页蜘蛛,网络机器人,在FOAF社区中,更经常的被称为网页追逐者,它是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。 1.2 用途 很多站点,尤其是有哪些信誉好的足球投注网站引擎,都使用爬虫提供必威体育精装版的数据,它主要用于提供它访问过页面的一个副本,然后,有哪些信誉好的足球投注网站引擎就可以对得到的页面进行索引,以提供快速访问。蜘蛛也可以在web上用来自动执行一些任务,例如检查链接,确认html代码;也可以用来抓取网页上某种特定类型信息,例如抓取电子邮件地址(通常用于垃圾邮件)。 1.3 原理 一个网络蜘蛛就是一种机器人,或者软件代理。大体上,它从一组要访问的URL链接开始,可以称这些URL为种子。爬虫访问这些链接,它辨认出这些页面的所有超链接,然后添加到这个URL列表,可以称作检索前沿。这些URL按照一定的策略反复访问。 2、通用网络爬虫和聚焦爬虫 2.1 前言 2.2 通用网络爬虫 2.3 聚焦爬虫 2.4 两种爬虫比较 2.1 前言 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。有哪些信誉好的足球投注网站引擎(Search Engine),例如传统的通用有哪些信誉好的足球投注网站引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性有哪些信誉好的足球投注网站引擎也存在着一定的局限性。 为了解决通用有哪些信誉好的足球投注网站引擎的局限性,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 2.2 通用网络爬虫 通用网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 2.3 聚焦爬虫 聚焦爬虫根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的有哪些信誉好的足球投注网站策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。 2.4 两种爬虫比较 相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题: (1)对抓取目标的描述或定义; (2)对网页或数据的分析与过; (3)对URL的有哪些信誉好的足球投注网站策略。 抓取目标的描述和定义是决定网页分析算法与URL有哪些信誉好的足球投注网站策略如何制订的基础。而网页分析算法和候选URL排序算法是决定有哪些信誉好的足球投注网站引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。 3、网络爬虫的抓取策略 3.1 网页有哪些信誉好的足球投注网站策略 3.2 爬行策略 3.1 网页有哪些信誉好的足球投注网站策略 网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题,目前常见的是广度优先和最佳优先方法。 3.1.1 广度优先有哪些信誉好的足球投注网站策略 广度优先有哪些信誉好的足球投注网站策略是指在抓取过程中,在完成当前层次的有哪些信誉好的足球投注网站后,才进行下一层次的有哪些信誉好的足球投注网站。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先有哪些信誉好的足球投注网站方法。也有很多研究将广度优先有哪些信誉好的足球投注网站策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。 另外一种方法是将广度优先有哪些信誉好的足球投注网站与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。 3.1.2 最佳优先有哪些信誉好的足球投注网站策略 最佳优先有哪些信誉好的足球投注网站策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。 存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优有哪些信誉好的足球投注网站算法。因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点。研究表明,这样的闭环调整可以将无关网页数量降低30%-90%。 3.2 爬行策略 网页爬虫的行为通常是四种策略组
您可能关注的文档
- 《小青蛙》教学设计.docx
- 曼昆宏观经济学英语课后题答案.doc
- 关于对机关事业单位在编不在岗财政供养人员的处理方案.doc
- 发那科系统中海德汉光栅尺及编码器设定20131022.pdf
- 四年级下册第二单元作文--向爸爸妈妈说说心里话.docx
- 电气欧洲标准.pdf
- 缔造完美教室工作总结.doc
- 招待费管理办法.doc
- 欧洲西部精品课件.pptx
- 经济增长的供给侧和需求侧要素分析.ppt
- 中国国家标准 GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- 《GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计》.pdf
- 中国国家标准 GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- 《GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置》.pdf
- 中国国家标准 GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- GB/T 17889.4-2024梯子 第4部分:铰链梯.pdf
- 《GB/T 17889.4-2024梯子 第4部分:铰链梯》.pdf
最近下载
- 浙江省重点科技创新团队总结报告.pdf
- NB_SH_T 6056-2022CN 轻质烃及发动机燃料中有机氯含量测定 微库仑法.docx
- 钳工工艺技能与训练全套教学课件.pptx
- 东菱DL-T06(BM1230)面包机说明书.pdf
- 环氧树脂生产基本工艺.doc
- 炼铁生产 球团生产工艺操作与设备 项目四:生产出9-16mm小球 .ppt
- 人教版六年级上册数学第六单元综合测试卷(含答案).doc VIP
- 阿法拉伐分油机中文说明Instruction book1.pdf
- 人教版数学六年级上册第六单元综合提优卷(含答案).docx VIP
- 人教版数学六年级上册第五单元综合提优卷(含答案).docx VIP
文档评论(0)