Python爬虫大数据采集与挖掘-9.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

1.利用微博PC版进行命令发送与结果的采集一种途径是找到AJAX动态加载的请求地址直接获取AJAX内容,但是当遇到加密的JS时,要分析并找到请求地址就会非常困难。另一种途径是使用无界面浏览器,基于模拟浏览器方式执行js代码以获取完整html内容。其缺点是,执行速度慢。2.通过微博的移动端网页来采集内容目前国内外主流的微博都提供了移动端接入方式,移动端网页和PC端网页的入口不同,页面结构存在一定差异。一般情况下,移动端页面并不采用AJAX技术,而是可以直接提取。但是与PC版网页相比可能缺失部分内容。微博博文回帖采集教材里展示了一个微博热搜的采集方法,与此类似,这里采集某个博文的回帖。通过跟踪得到响应的URL查看相应的JSONu=/ajax/statuses/buildComments?is_reload=1id=5139011190918405is_show_bulletin=2is_mix=0count=20type=feeduid=1989660417fetch_level=0locale=zh-CNrecords=[]#该函数与教材一致,只是user-agent和cookie替换成为前面跟踪获得相应信息data=getURLconent(u)qiuzhus=json.loads(data)plist=qiuzhus[data]forpinplist:rec=[]try:rec.append(p[‘created_at’])#回帖时间rec.append(p[‘text‘])#回帖内容records.append(rec)exceptKeyError:continueprint(records)#显示采集到的回帖部分内容如下,可见获得了正确的内容。登陆成功后,采集微博信息本质上就是获取到微博平台返回的HTML编码内容后,对页面HTML结构进行分析,将其中的信息规格化。采用采用正则表达式、树形结构特征匹配等方法提取页面中所需要的数据,在具体实现上,则可以采用lxml、betaifulsoup等html解析工具解析获取指定位置的数据。值得一提的是,很多微博使用Robots协议限制爬虫方式抓取页面内容,因此,可以根据具体微博的情况来选择使用爬虫技术。通常,应当减少爬虫对微博网站的影响以及避免被反爬虫机制检测到,例如,可以设置一定的随机延时,模仿正常用户的操作行为。**Python爬虫大数据采集与挖掘(9)

--微博信息采集与Python实现提纲微博信息采集方法概述微博开放平台授权与测试使用Python调用微博API采集数据通过爬虫采集微博常见的SNS平台的信息采集途径主要可以分为如下两种:通过平台提供的开放API获取数据和通过爬虫方式采集数据。微博API是微博官方开放的一组程序调用接口,通过这些API能够获得微博的博文、用户信息及用户关系信息等数据。但是在非商业授权下有较大的使用限制,能够获取的数据量有限。通过爬虫方式采集数据的方法,具体又可以分为两种,即,通过模拟用户行为进行页面分析与数据采集、通过模拟移动终端客户端进行数据采集。通过平台开放API获取数据的方式与爬虫方式的主要区别在于前者需要注册平台开发者身份。在获取数据前使用平台约定的方式进行身份认证。后者本质上是模拟终端或者用户的方式,主要思路是通过平台公开的页面编码内容进行请求命令的构造,并对返回的数据进行分析和提取,具体方法与前面第五章介绍的方法类似。提纲微博信息采集方法概述微博开放平台授权与测试使用Python调用微博API采集数据通过爬虫采集微博在调用微博之前,需要事先获取用户身份认证,这是指在开放平台上的认证,而非普通用户登录微博时的认证。微博开放平台用户身份鉴权主要采用OAuth2.0认证方式,平台授权的最终是获得访问令牌(access_token)。使用该令牌和用户身份(uid)就可以在Python程序中调用API,实现微博信息的采集。获取access_token的流程(1)创建微博用户,并登录微博();(2)进入“微博接口测试工具”(/tools/console),如果还没有创建应用,则根据页面提示创建一个应用。如果已经有应用,则转步骤(4)。创建应用(3)创建成功后,进入应用控制台。在OAuth2.0授权设置中,填写“授权回调页”为?/oauth2/default.html?。(4)填写完成后,再次进入“微博接口测试工具”,可以看到API测试工具页面。点击“获取AccessToken”可以获得该应用

文档评论(0)

弹弹 + 关注
实名认证
内容提供者

人力资源管理师、教师资格证持证人

该用户很懒,什么也没介绍

版权声明书
用户编号:6152114224000010
领域认证该用户于2024年03月13日上传了人力资源管理师、教师资格证

1亿VIP精品文档

相关文档