《Python程序设计》教学课件—10网络爬虫基础.pptxVIP

下载本文档

20
0
约2.05万字
约 56页
2022-05-09 发布于安徽
举报
版权申诉

《Python程序设计》教学课件—10网络爬虫基础.pptx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

本章介绍网络爬虫的基本概述和使用Python内置的urllib库抓取网页、使用第三方的BeautifulSoup库解析网页的基本方法。第10章网络爬虫基础目录第10章网络爬虫基础 10.1 爬取网页的urllib库 10.1.1 urllib库简介 10.1.2 urllib.request模块 10.1.3 使用urllib.request.Request()方法包装请求 10.2 解析网页的BeautifulSoup模块 10.2.1 安装与导入BeautifulSoup 10.2.2 BeautifulSoup对象 10.3 爬取网络资源示例 10.4 习题 10.1 爬取网页的urllib库 10.1.1 urllib库简介 urllib库是Python内置的HTTP请求模块。urllib库提供的上层接口，使访问www和ftp服务器上的数据就像访问本地文件一样。urllib库有以下4个模块。 1）urllib.request：请求模块，用来打开和读取URL。 2）urllib.error：异常处理模块，包含request产生的错误，可以使用try进行捕捉处理。 3）urllib.parse：URL解析模块，包含一些解析URL的方法（拆分、合并等）。 4）urllib.robotparser：robot.txt解析模块。使用urllib库的前提是需要导入urllib库中对应的模块。例如导入urllib.request模块，语句如下： import urllib.request 或 from urllib import request 10.1 爬取网页的urllib库 10.1.2 urllib.request模块如果需要模拟浏览器发起一个HTTP请求，则可以使用urllib.request模块。urllib.request的作用不仅仅是发起请求，还能获取请求返回结果。 1. urllib.request.urlopen()方法 urlopen()是一个简单的发送网络请求的方法。导入urllib.request模块后，则使用模块中的urlopen()方法打开并爬取网页。（1）urlopen()方法的语法 urlopen()方法的语法格式如下：变量=urllib.request.urlopen(url, data, timeout) 10.1 爬取网页的urllib库 1）参数url是要打开的网址URL，是必须传送的参数。【例10-1】爬取百度首页（），通过请求百度的get请求获得百度首页，获取其页面的源代码，并显示在窗口中。 import urllib.request # 导入urllib.request模块 response = urllib.request.urlopen(/) # 打开并爬取网页 print(查看response响应信息类型: , type(response)) page = response.read() # 读取所有内容，返回二进制类型的数据 html = page.decode(utf-8) # 转换为UTF-8编码的字符串，显示HTML代码 print(html) 程序运行结果如图10-1所示。 2）参数data是访问URL时要提交的数据。例如： response = urllib.request.urlopen(url=/, data=busername=adminpassword=123, timeout=0.1) 3）参数timeout设置网站访问超时时间，单位是秒。作为网页的访问者，爬虫不能一直等着服务器返回错误信息，因此在爬取网页时可以设置超时异常的值。当网页在设置的时间内无法打开时，判断网页超时。如果省略参数timeout则按默认时间；如果请求超过设置时间，则抛出异常。例如： import urllib.request response = urllib.request.urlopen(/get, timeout=1) print(response.read().decode(utf-8)) 10.1 爬取网页的urllib库 4）执行urlopen()方法后，返回一个HTTPResposne类型的对象，返回的网页信息保存在该对象中。【例10-2】使用print(response)查看变量response中保存的内容： from urllib import request response = request.urlopen() print(response) http.client.HTTPResponse object at 0FC55048 1