网站大量收购闲置独家精品文档,联系QQ:2885784924

Python程序设计基础 课件 第十章 网络爬虫.pptx

Python程序设计基础 课件 第十章 网络爬虫.pptx

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第十章网络爬虫;网络爬虫又称为网络蜘蛛,是一种高效的信息收集工具,能够对海量的信息进行自动抓取和筛选。网络爬虫通过requests库和beautifulsoup4库抓取互联网站上的信息并形成一个本地的备份,再借助其他的Python模块,将数据信息进行提取和可视化,方便用户进行分析。

本章将用三节内容来介绍网络爬虫的相关知识:

10.1程序包requests

10.2程序包beautifulsoup4

10.3网络爬虫实例;程序包requests库是一个http请求库,该程序包可以模拟用户向网站服务器发出访问请求,得到服务器响应之后,通过服务器返回的requests对象“爬取”网页信息。程序包requests属于Python语言的外部库,需要用户自行下载。在PyCharm软件中,单击菜单“文件|设置”,找到“项目:ZYPrj03”下的“Python解释器”,这里的“ZYPrj03”为本书使用的项目名(对于不同的用户项目名会不相同),然后,单击左上部的“+”号弹出“可用软件包”窗口,在其中输入“requests”,然后,下载并安装该软件包。

如果使用VisualStudio集成开发环境,则需要在控制台执行命令“pipinstallrequests”安装程序包requests。;通常情况下,网站服务器使用的都是HTTP或者HTTPS协议,这两种协议的请求方式均为GET方式和POST方式。在爬取网页信息之前,需要先了解该网站访问的请求方式,之后,才能使用网络爬虫。在下表中列举了程序包requests中的常用方法。;爬取一个网页信息的步骤为:首先,向该网页发送HTTP请求,网页响应后会返回一个response对象,网页的响应信息就储存在该对象中;然后,调用response对象中的属性,将其中的响应信息输出。下表列举了response对象的响应信息属性。;下面的实例将对上表中常用的参数举例说明:;调用post方法可以向指定的网址发送POST请求,且该请求将包含的数据一起发送至网址,适用于向指定的网页发送特定的数据内容,例如上传图片文件等。post方法有三种常用的携带数据方式:

表单方式(默认方式)

json方式

文件方式;下面的实例将介绍上述三种方式的具体用法:;调用程序包requests中的请求方法链接网页时,会出现多种多样的异常情况,弄清每一种异常情况的提示语句,才能解决和避免异常。下表??列举了几种常见的异常情况。;调用程序包requests连接网页,将其HTML页面转换为字符串存储在文档中之后,需要对HTML页面的内容进行处理。程序包beautifulsoup4用于解析Web页面的HTML或者XML,将HTML文档转换为一个树形结构的文档,并将解析结果打包封装,配置了相应的方法对其进行访问。程序包beautifulsoup4还具有一个强大的功能,即可以根据HTML或者XML的语法来创建一个文档树。程序包beautifulsoup4是外部软件包,在使用前需要进行安装,安装方法类似于第10.1节介绍了程序包requests的安装方法。

如果使用VisualStudio集成开发环境,需要在“命令提示符”窗口下使用命令“pipinstallbs4”安装程序包beautifulsoup4。

对网页中所需的信息进行定位并爬取,需要了解HTML/XML页面的格式结构。程序包beautifulsoup4解析的HTML/XML页面的格式是一个树形结构,其中包含了几种结点对象,常用的四种对象有:Tag、BeautifulSoup、NavigableString和Comment。这里重点介绍Tag对象和BeautifulSoup对象。;Tag对象是程序包beautifulsoup4中常用的对象,Tag对象中包含的标签和HTML中的标签相同。下表列举了Tag对象中常用的标签。;调用beautifulsoup4库中的BeautifulSoup()方法可创建一个BeautifulSoup对象,该对象中包含了解析树的全部信息,实质上也属于一种Tag对象,但是BeautifulSoup对象比Tag对象的性能更强大,不仅可以对文档树进行有哪些信誉好的足球投注网站操作,还可以遍历整个文档树。了解了HTML的语法格式之后,仿照HTML页面的语法格式,可以自定义一个简单的BeautifulSoup对象。;自定义的BeautifulSoup对象的HTML格式与网页源代码一致,说明BeautifulSoup对象创建成功。调用主体内容对象(这里为bs)的text属性可获取自定义的页面内容。

在HTML格式中,HTML的每一种标签都有四个基本属性。下表介绍了这四个属性的类型及其含义。;下面的实例介绍了上表中的标签属性及其用法:;在学习了程序包requests和beauti

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档