Python网络爬虫技术 第5章 模拟登录.pptxVIP

Python网络爬虫技术 第5章 模拟登录.pptx

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章 模拟登录;;提交入口指的是登录网页的表单数据如用户名、密码、验证码等的真实提交地址,它不一定是登录网页的地址,因为出于安全需要它可能会被设计成其他地址。找到表单数据的提交入口是表单登录的前提。 打开网站,单击右上角登录链接,进入登录网页,如图所示。 ;打开Chrome开发者工具后打开网络面板,勾选Preserve log(保持日志)。按“F5”键刷新网页显示各项资源,如图所示。 ;在登录网页输入账号、秘密、验证码,单击“登录”按钮,提交表单数据,此时Chrome开发者工具会加载新的资源。 观察Chrome开发者工具左侧的资源,找到“login.jspx”资源并单击,观察右侧的Headers标签下的General信息,如图 5-3所示,发现Request Method信息为POST,即请求方法为POST,可以判断Request URL信息即为提交入口。 ;使用Chrome开发者工具获取到的提交入口,观察Headers标签,Form Data信息为服务器端接收到的表单数据,如图 5-4所示。其中,username表示账号;password表示密码;captcha表示验证码;returnUrl表示跳转网址。returnUrl系自动生成,在登录网页时无需输入。 ;识别验证码。人工识别验证码分为3个步骤:①获取生成验证码的图片地址;②将验证码图片下载到本地;③人工识别验证码。 获取登录网页验证码地址的步骤如下。 打开网站,进入登录网页,若已登录需先退出。打开Chrome开发者工具后打开网络面板,按“F5”键刷新网页。 ;观察Chrome开发者工具左侧的资源,找到“captcha.svl”资源并单击,观察右侧的Preview标签,若显示验证码图片如左图所示,则“captcha.svl”资源的Request URL信息为验证码图片的地址,如右图所示。 ;获取验证码图片地址后,下一步对图片地址发送请求,将图片下载到本地,最后人工打开图片识别验证码。使用PIL库的Image模块可以自动调用本机的图片查看程序打开验证码图片,效率更高。Image模块自动打开图片分为两步:使用open方法创建一个Image对象;使用show方法显示图片。open方法和show方法的基本语法格式如下。 open方法和show方法的常用参数及其说明,如表所示。 ;代理IP跳过验证码。很多时候在登录后爬取过程中也会弹出验证码,当使用??一个IP长时间高频率爬取网页时,该网站的服务器可能会判定该IP在爬取数据,触发网站的安全机制,在客户端弹出验证码,只有输入验证码后,客户端的访问请求才能继续被接受和处理,下图是爬取淘宝时弹出验证码的情况。 ;每次输入验证码会比较麻烦,效率低下。而且当网站服务器多次对指定IP弹出验证码后,可能会封禁该IP,导致爬取无法进行。因此,使用代理IP的方法,使用多个IP切换跳过验证码,成为应对反爬虫的主要手段。 获取代理IP VPN:是Virtual Private Network的简称,指专用虚拟网络。国内外很多厂商都提供VPN服务,可自动更换IP,实时性高,速度快,但价格较高,适合商用。 IP代理池:指大量IP地址集。国内外很多厂商将IP做成代理池,提供API接口,允许用户使用程序调用,但价格也较高。 ADSL宽带拨号:是一种宽带上网方式。特点是断开重连会更换IP,爬虫使用这个原理更换IP,但效率低,实时性差。;使用Requests库配置代理IP 第3章已经介绍过Requests库的使用方法,为各个发送请求的函数(get、post、put等)配置代理IP的参数是proxies,它接收dict。为保障安全性,一些代理服务器设置了用户名和密码,使用它的IP时需要带上用户名和密码,IP地址的基本格式如下。 ;POST请求方法能够保障用户端提交数据的安全性,因此它被一般需要登录的网站采用。Requests库的post函数能够以POST请求方法向服务器端发送请求,它返回一个Response Response对象。post函数的基本语法格式如下。 post函数常用的参数及其说明,如表所示。 ;Cookie用于服务器端识别客户端,当发送请求的客户端享有同样的Cookie时,即可认定客户端是同一个。Requests库的会话对象Session能够跨请求地保持某些参数,比如Cookie,它令发送请求的客户端享有相同的Cookie,保证表单数据的匹配。以POST请求方法为例,通过Session发送请求的基本语法格式如下。 ;;获取Cookie分以下两步进行。 登录网站。输入账号、密码、验证码,保证成功登录网站。 找到登录成功后返回的页面地址的Cookie。步骤如下。 打开Chrome开发者工具后打开网络面板,按“F5”键刷

文档评论(0)

教育课件资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档