- 1、本文档共90页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 用pyppeteer爬取每日上证股票交易信息 #用浏览器自身的查找元素功能获取股票名称和代码 async def getStockCodes(page): codes = [] elements = await page.querySelectorAll(li) #根据tag name找元素 #对应 lia href=/gupiao/600151/航天机电(600151)/a/li for e in elements: a = await e.querySelector(a) #根据tag name找元素 obj = await a.getProperty(text) #还可以 a.getProperty(href) #上面这句不行就改成: obj = await a.getProperty(innerText) text = await obj.jsonValue() #固定写法 if( ( in text and ) in text): codes.append(text) return codes #耗时: 0:00:04.421178 Chrome浏览器鼠标右键点击“今开”的数据“10.23”,弹出菜单点“检查” 可以看到“10.23”及其附近元素对应的源代码(查看源代码看不到) 信息科学技术学院 需要登录的爬虫 美国加州1号公路 需要登录的爬虫 许多网站需要登录后才能访问其内容 京东、淘宝需要登录才能访问交易记录 需要登录才能看提交过的源代码 登录操作,无法用一个url表示出来 解决办法之一:用浏览器模拟登录过程,输入用户名密码、点登录按钮。或者程序启动浏览器,等待手工登录后,程序再继续爬虫操作(对有验证码的情况) 爬取Openjudge自己提交通过的所有程序源码 程序命令浏览器模拟登录过程,即输入用户名密码、点登录按钮 或:程序启动浏览器,等待手工登录后,程序再继续爬虫操作(对有验证码的情况,或者懒得写代码的情况) 更高级做法:不用浏览器,经数据包分析后,用requests库进行数据传输进行登录 爬取Openjudge自己提交通过的所有程序源码 鼠标右键点击右上角的“个人首页”,在弹出的菜单上选“检查”: 爬取Openjudge自己提交通过的所有程序源码 点击 “个人首页”,进入: a href=/2020t1fallall2/solution class=result-rightAccepted/a 爬取Openjudge自己提交通过的所有程序源码 点击某个题的“Accepted链接,进入: pre class=sh_python n = int(input()) lst = [] for i in range(n): s = input().split() lst.append((s[0], int(s[1]))) lst.sort(key= lambda x : (-x[1], x[0])) for x in lst: print(x[0], x[1])/pre pyppeteer爬取Openjudge自己提交通过的所有程序源码 import asyncio import pyppeteer as pyp async def antiAntiCrawler(page): #为page添加反反爬虫手段 await page.setUserAgent(Mozilla/5.0 (Windows NT 6.1; Win64; x64) \ AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36) await page.evaluateOnNewDocument( () ={ Object.defineProperties(navigator, { webdriver:{ get: () = false } }) }) pyppeteer爬取Openjudge自己提交通过的所有程序源码 async de
您可能关注的文档
- Python程序设计 7. 组合数据类型(3)字典和集合.ppt
- Python程序设计 8. 计算思维.ppt
- Python程序设计 8. 文件读写.ppt
- Python程序设计 10. Python正则表达式.ppt
- Python程序设计 11. 玩转python生态.ppt
- Python程序设计 12. python数据库编程.ppt
- Python程序设计 13. numpy和pandas数据分析.ppt
- Python程序设计 14. python图像处理_一些补充.ppt
- Python程序设计 14.用matplotlib展示数据.ppt
- Python程序设计 16. 面向对象程序设计.pptx
文档评论(0)