Python网络爬虫技术第3章简单静态网页爬取.pptx

下载文档

33
0
约5.62千字
约 54页
2022-02-10 发布于甘肃
举报
版权申诉
保障服务

Python网络爬虫技术第3章简单静态网页爬取.pptx

1、本文档共54页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

简单静态网页爬取;;许多Python的原生系统已经开始使用urllib3库，其提供了很多python标准库里所没有的重要特性。 ;通过request方法即可创建一个请求，该方法返回一个HTTP响应对象。Reques语法格式如下。 reques方法常用的参数及其说明如下。;在request方法中，如果需要传入headers参数，可通过定义一个字典类型实现。定义一个包含User-Agent信息的字典，使用浏览器为火狐和chrome浏览器，操作系统为“Windows NT 6.1; Win64; x64”，向网站“/tipdm/index.html”发送带headers参数的GET请求，hearders参数为定义的User-Agent字典。 ;为防止因为网络不稳定、服务器不稳定等问题造成连接不稳定时的丢包，可以在请求中增加timeout参数设置，通常为浮点数。依据不同需求，timeout参数提供多种设置方法，可直接在URL后设置该次请求的全部timeout参数，也可分别设置该次请求的连接与读取timeout参数，在PoolManager实例中设置timeout参数可应用至该实例的全部请求中。 ;urllib3库可以通过设置retries参数对重试进行控制。默认进行3次请求重试，并进行3次重定向。自定义重试次数通过赋值一个整型给retries参数实现，可通过定义retries实例来定制请求重试次数及重定向次数。若需要同时关闭请求重试及重定向则可以将retries参数赋值为False，仅关闭重定向则将redirect参数赋值为False。与Timeout设置类似，可以在PoolManager实例中设置retries参数控制全部该实例下的请求重试策略。 5. 生成完整HTTP请求使用urllib3库实现生成一个完整的请求，该请求应当包含链接、请求头、超时时间和重试次数设置。 ;requests库是一个原生的HTTP库，比urllib3库更为容易使用。requests库发送原生的HTTP 1.1请求，无需手动为URL添加查询字串，也不需要对POST数据进行表单编码。相对于urllib3库，requests库拥有完全自动化Keep-alive和HTTP连接池的功能。requests库包含的特性如下。;requests库生成请求的代码非常便利，其使用的request方法的语法格式如下。 request方法常用的参数及其说明如下。 ;需要注意的是，当requests库猜测错时，需要手动指定encoding编码，避免返回的网页内容解析出现乱码。手动指定的方法并不灵活，无法自适应??应爬取过程中不同网页的编码，而使用chardet库比较简便灵活，chardet库是一个非常优秀的字符串∕文件编码检测模块。 chardet库使用detect方法检测给定字符串的编码，detect方法常用的参数及其说明如下。 ;requests库中对请求头的处理与urllib3库类似，也使用headers参数在GET请求中上传参数，参数形式为字典。使用headers属性即可查看服务器返回的响应头，通常响应头返回的结果会与上传的请求参数对应。 4. Timeout设置为避免因等待服务器响应造成程序永久失去响应，通常需要给程序设置一个时间作为限制，超过该时间后程序将会自动停止等待。在requests库中通过设置timeout这个参数实现，超过该参数设定的秒数后，程序会停止等待。 ;使用requests库的request方法向网站“/tipdm/index.html”发送一个完整的GET请求，该请求包含链接、请求头、响应头、超时时间和状态码，并且编码应正确设置。;;chrome浏览器提供了一个非常便利的开发者工具，供广大web开发者使用，该工具提供包括查看网页元素、查看请求资源列表、调试JS等功能。该工具其中一个打开方式可通过右键单击chrome浏览器页面，在弹出菜单中单击图所示的“检查”选项打开。 ;也可以单击chrome浏览器右上角快捷菜单，如图所示，单击“更多工具”选项中的“开发者工具”选项，或使用快捷键组合Ctrl+Shift+I。 ;chrome开发者工具目前包括了9个面板，界面如图所示。 ;chrome开发者工具各面板功能如下。 ;在爬虫开发中，元素面板主要用来查看页面元素所对应的位置，比如图片所在位置或文字链接所对应的位置。面板左侧可看到当前页面的结构，为树状结构，单击三角符号即可展开分支。依次单击树状结构的三角符号，依次打开“body”“header”“div”“nav”标签，找到第一个“li”标签，如图所示。 ;将鼠标悬停至“li”标签中的“首页”会同步在原网页界面中标识出对应部分的文字“首页”，如图所示。 ;切换至源代码面板（So

您可能关注的文档

文档评论（0）

教育课件资源 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Python网络爬虫技术第3章简单静态网页爬取.pptx