Python程序设计基础课件第十章网络爬虫.pptx

下载文档

0
0
约6.61千字
约 28页
2024-06-25 发布于山东
举报
版权申诉
保障服务

Python程序设计基础课件第十章网络爬虫.pptx

1、本文档共28页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第十章网络爬虫;网络爬虫又称为网络蜘蛛，是一种高效的信息收集工具，能够对海量的信息进行自动抓取和筛选。网络爬虫通过requests库和beautifulsoup4库抓取互联网站上的信息并形成一个本地的备份，再借助其他的Python模块，将数据信息进行提取和可视化，方便用户进行分析。

本章将用三节内容来介绍网络爬虫的相关知识：

10.1程序包requests

10.2程序包beautifulsoup4

10.3网络爬虫实例;程序包requests库是一个http请求库，该程序包可以模拟用户向网站服务器发出访问请求，得到服务器响应之后，通过服务器返回的requests对象“爬取”网页信息。程序包requests属于Python语言的外部库，需要用户自行下载。在PyCharm软件中，单击菜单“文件|设置”，找到“项目:ZYPrj03”下的“Python解释器”，这里的“ZYPrj03”为本书使用的项目名（对于不同的用户项目名会不相同），然后，单击左上部的“+”号弹出“可用软件包”窗口，在其中输入“requests”，然后，下载并安装该软件包。

如果使用VisualStudio集成开发环境，则需要在控制台执行命令“pipinstallrequests”安装程序包requests。;通常情况下，网站服务器使用的都是HTTP或者HTTPS协议，这两种协议的请求方式均为GET方式和POST方式。在爬取网页信息之前，需要先了解该网站访问的请求方式，之后，才能使用网络爬虫。在下表中列举了程序包requests中的常用方法。;爬取一个网页信息的步骤为：首先，向该网页发送HTTP请求，网页响应后会返回一个response对象，网页的响应信息就储存在该对象中；然后，调用response对象中的属性，将其中的响应信息输出。下表列举了response对象的响应信息属性。;下面的实例将对上表中常用的参数举例说明：;调用post方法可以向指定的网址发送POST请求，且该请求将包含的数据一起发送至网址，适用于向指定的网页发送特定的数据内容，例如上传图片文件等。post方法有三种常用的携带数据方式：

表单方式（默认方式）

json方式

文件方式;下面的实例将介绍上述三种方式的具体用法:;调用程序包requests中的请求方法链接网页时，会出现多种多样的异常情况，弄清每一种异常情况的提示语句，才能解决和避免异常。下表??列举了几种常见的异常情况。;调用程序包requests连接网页，将其HTML页面转换为字符串存储在文档中之后，需要对HTML页面的内容进行处理。程序包beautifulsoup4用于解析Web页面的HTML或者XML，将HTML文档转换为一个树形结构的文档，并将解析结果打包封装，配置了相应的方法对其进行访问。程序包beautifulsoup4还具有一个强大的功能，即可以根据HTML或者XML的语法来创建一个文档树。程序包beautifulsoup4是外部软件包，在使用前需要进行安装，安装方法类似于第10.1节介绍了程序包requests的安装方法。

如果使用VisualStudio集成开发环境，需要在“命令提示符”窗口下使用命令“pipinstallbs4”安装程序包beautifulsoup4。

对网页中所需的信息进行定位并爬取，需要了解HTML/XML页面的格式结构。程序包beautifulsoup4解析的HTML/XML页面的格式是一个树形结构，其中包含了几种结点对象，常用的四种对象有：Tag、BeautifulSoup、NavigableString和Comment。这里重点介绍Tag对象和BeautifulSoup对象。;Tag对象是程序包beautifulsoup4中常用的对象，Tag对象中包含的标签和HTML中的标签相同。下表列举了Tag对象中常用的标签。;调用beautifulsoup4库中的BeautifulSoup()方法可创建一个BeautifulSoup对象，该对象中包含了解析树的全部信息，实质上也属于一种Tag对象，但是BeautifulSoup对象比Tag对象的性能更强大，不仅可以对文档树进行有哪些信誉好的足球投注网站操作，还可以遍历整个文档树。了解了HTML的语法格式之后，仿照HTML页面的语法格式，可以自定义一个简单的BeautifulSoup对象。;自定义的BeautifulSoup对象的HTML格式与网页源代码一致，说明BeautifulSoup对象创建成功。调用主体内容对象（这里为bs）的text属性可获取自定义的页面内容。

在HTML格式中，HTML的每一种标签都有四个基本属性。下表介绍了这四个属性的类型及其含义。;下面的实例介绍了上表中的标签属性及其用法:;在学习了程序包requests和beauti

Python程序设计基础课件第十章网络爬虫.pptx 原文免费试下载

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Python程序设计基础课件第十章网络爬虫.pptx