- 1、本文档共45页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
要获得这些评论,首先要找到请求的URL。进入开发者模式之后,通过鼠标点击操作,可以在评论信息页面检查对应的请求过程但是当遇到加密的JS时,要分析并找到请求地址就会非常困难,需要耐心寻找页面特征,以及在不同页面之间交互过程中寻找动态请求之间的关系,就有可能获得最终发送给Web服务器的请求信息。获取动态请求参数一般的情况下,Ajax的动态请求使用带参数的URL,这时可以直接使用前面提到的方法来构造URL。但是,页面还可以通过提交(POST)数据的方式来向服务器发送请求的动态参数,在携程、亚马逊等许多存在用户评论的网站上广泛使用这种技术。**Python爬虫大数据采集与挖掘(5)
--动态页面采集技术与Python实现提纲动态页面内容生成与交互动态页面采集技术使用带参数的URL利用Cookie使用Ajax模拟浏览器技术动态页面区别于静态页面的最主要特征是页面内容的生成方式,动态页面的内容生成方式可以分成两类,即服务端生成、客户端生成。服务器生成Web页面中经常使用的脚本语言有:jsp、asp、php等,使用这些语言连接数据库、查询数据库、生成给用户的HTML文档。一个简单的例子是用户登录另一种在服务器进行内容生成的途径是通过在HTML文档中嵌入SSI(ServerSideInclude)指令。包含这种指令的文件的默认扩展名是.stm、.shtm或.shtml,这样,当客户端访问这类文件时,Web服务器端就会对这些文件进行读取和解析,把文件中包含的SSI指令解释出来,最终生成HTML文档推送给客户端。与内容生成有关的常见指令是include客户端生成在这种生成方式中,Web页面中需要嵌入一定脚本或插件。常用的脚本语言包括JavaScript、VBScript、actionScript等,插件包括ActiveX控件、Flash插件等。这些脚本或插件具备浏览器事件做出相应、可以读写HTML中的元素、可以创建或修改Cookie等功能,这些功能的实现要求客户端具有执行脚本、下载并执行插件的能力。通过在浏览器内执行这些脚本或插件功能,实现Web页面内容的生成,并进行动态更新。动态页面交互的实现通过URL传递请求参数协议://域名部分:端口号/目录/文件名.文件后缀?参数1=值#标志参数2=值#标志?表示第一个参数的开始,起到分隔的作用。参数的基本形式是”参数=值”,不同参数之间用连接起来。例如baidu的检索功能的URL/s?wd=%E5%A4%A7%E6%95%B0%E6%8D%AErsv_spt=1rsv_iqid=0xb437f6a505c8c83fissp=1f=8rsv_bp=1rsv_idx=2ie=utf-8tn=baiduhome_pg其中,wd是检索的关键词,utf-8编码通过Cookie获取命令参数Cookie中记录了一些客户端和服务器之间交互的参数,例如在购物网站上用户设定的城市、登录用户名和口令等,这样对于需要用户登录的页面中,就可以自动读取Cookie内容作为请求的参数。访问淘宝,头部中的CookieAjax支持Ajax的浏览器配置有Ajax引擎,Ajax通过XMLHttpRequest和Web服务器进行异步通信,利用iframe技术实现按需获取数据。通常用于在后台与服务器进行少量数据交换,在不重新加载整个网页的情况下,对网页的局部进行更新触发条件页面中的定时器鼠标或键盘事件驱动定时触发:每隔一定时间自动查询行情有的页面的翻页也是ajax如/china/提纲动态页面内容生成与交互动态页面采集技术使用带参数的URL利用Cookie使用Ajax模拟浏览器技术主要的采集技术可以归纳为以下四种类型。(1)构造带参数的URL,利用参数传递动态请求;(2)构造Cookie携带参数,利用HTTP头部传递动态请求的参数;(3)离线分析Ajax的动态请求,使用静态页面采集技术,或者通过Cookie、Post等形式发送请求参数;(4)模拟浏览器技术。提纲动态页面内容生成与交互动态页面采集技术使用带参数的URL利用Cookie使用Ajax模拟浏览器技术/Search?keyword=互联网大数据enc=utf-8表示有哪些信誉好的足球投注网站的关键词是“互联网大数据”,编码方式是utf-8。因此,爬虫在采集类似动态页面时,就可以直接填充关键词,构成完整的带参数的URL,然后发送给Web服务器。参数在URL中可能是经过编码的这种动态页面采集技术比较简单,关键在于构建合适的URL。url=/Search#以字典存储查询的关键词及属性qrydata={keyword:互联网大数
文档评论(0)