Python网络爬虫技术案例教程(共10单元)473.pptxVIP

Python网络爬虫技术案例教程(共10单元)473.pptx

  1. 1、本文档共473页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
根据教材和网络资源整理制作,可作为授课教师的参考资料和从业人员的自学资料。

网络爬虫入门 本章导读1第章在当今这个数据大爆炸的信息时代,用户与网络的沟通本质上是数据的交换,这导致了互联网信息数据量的爆发式增长。海量的互联网数据蕴含着巨大的价值,用户如何自动高效地从互联网中获取感兴趣的信息并有效地应用是一个亟待解决的问题。在这样的环境和需求的影响下,网络爬虫应运而生,它为互联网数据的采集提供了新的方法。 本章导读1第章本章从网络爬虫概述入手,介绍网络爬虫的相关基础知识,包括网络爬虫的原理、分类和应用,网络爬虫工作流程,网络爬虫协议,以及搭建Python开发环境等内容。 学习目标1第章理解网络爬虫的原理、分类和应用。掌握网络爬虫的工作流程。了解网络爬虫协议。能在Windows系统中搭建Python开发环境。 目录CONTENT041.4 搭建Python开发环境031.3 网络爬虫协议021.2 网络爬虫工作流程011.1 网络爬虫概述 1.1 网络爬虫概述网络爬虫又称为“网络蜘蛛”,是一个用来实现自动采集网络数据的程序。这样周而复始,蜘蛛就可以爬遍整个网络的所有节点,抓取数据。蜘蛛爬到一个节点相当于访问了该网页,提取了信息,然后顺着节点间的连线继续爬行到下一个节点,那么网页与网页之间的链接关系可以比作节点间的连线,而网络爬虫就可以比作在网上爬来爬去的蜘蛛。如果将互联网比作一张蜘蛛网,互联网上的一个个网页比作蜘蛛网上的一个个节点,1.1.1 网络爬虫原理 网络爬虫的基本原理可用图1-1描述。图1-1 网络爬虫基本原理 1.1 网络爬虫概述1.1.1 网络爬虫原理 1.1 网络爬虫概述1.1.1 网络爬虫原理提示统一资源定位符(Uniform Resource Locator,URL)是对可以从互联网上得到的资源位置和访问方法的一种简洁表示,是互联网上标准资源的地址。预先设定一个或若干个初始网页的URL将初始URL加入待爬取URL列表中从待爬取列表中逐个读取URL并将URL加入已爬取URL列表中,然后下载网页解析已下载的网页,提取所需的数据和新的URL存储提取的数据将新的URL与已爬取的URL列表进行比对检查该网页是否已爬取如果网页没有被爬取,则将新的URL放入待爬取URL列表的末尾,等待读取直到待爬取URL列表为空或者满足设定的终止条件最终达到遍历网页的目的 目标是与预先定义好的主题相关的网页。聚焦网络爬虫只择爬取与主题相关的网页,极大地节省了硬件和网络资源。它主要应用于对特定领域信息有需求的场景。聚焦网络爬虫在通用网络爬虫的基础上,需要对提取的新URL进行过滤处理,过滤掉与目标主题无关的网页,且根据一定的相关性有哪些信誉好的足球投注网站策略,确定待爬取URL列表的读取顺序。聚焦网络爬虫是根据网络爬虫的基本原理实现的,它所爬取的目标会从初始设定的URL扩充到全网。通用网络爬虫主要应用于门户网站、有哪些信誉好的足球投注网站引擎和大型网络服务提供商的数据采集。通用网络爬虫(称全网爬虫) 1.1 网络爬虫概述1.1.2 网络爬虫分类网络爬虫按照系统结构和工作原理的不同,大致可以分为四类 网络爬虫按照系统结构和工作原理的不同,大致可以分为四类目标是有更新的已下载网页和新产生的网页。爬虫程序监测网站数据更新的情况,然后在需要的时候只爬取发生更新或新产生的网页。增量式网络爬虫主要应用于网页内容会时常更新的网站,或者不断有新网页出现的网站。增量式网络爬虫目标是不能通过静态链接获取的,隐藏在有哪些信誉好的足球投注网站表单后的,只有用户提交一些关键词才能获得的网页。如用户注册后才可显示内容的网页。深层网络爬虫 1.1 网络爬虫概述1.1.2 网络爬虫分类 BaiduspiderGooglebotBingbot每个独立的有哪些信誉好的足球投注网站引擎都有自己的爬虫程序,爬虫程序每天连续地爬取相关网站,提取信息保存到索引数据库中,如Google爬虫Googlebot、百度爬虫Baiduspider、必应爬虫Bingbot?等。此外,有些有哪些信誉好的足球投注网站引擎对应不同的业务还有不同的爬虫,如百度图片爬虫Baiduspider-image、百度新闻爬虫Baiduspider-news等。 1.1 网络爬虫概述1.1.2 网络爬虫分类 网络爬虫是一个自动化的程序。爬虫程序首先发送请求,获取网页响应的内容,然后解析网页内容,最后将提取的数据存储到文件或数据库中。如图1-2所示。1.2 网络爬虫工作流程图1-2 网络爬虫工作流程 爬虫程序向网站的服务器发送一个HTTP请求,服务器返回给爬虫程序包含所需数据的HTTP响应(即网页源代码)。Python提供了许多与网络爬虫相关的库,其中,在爬取网页方面有urllib、requests、selenium库等。1.2 网络爬虫工作流程1.2.1 爬取网页爬虫程序首先要做的工作是爬取网页,即获取网页的源代码。源代码里包含了网页的有用信息,所以只要把源代

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档