大数据采集与预处理课件:网站模拟登录和数据采集案例.pptx

大数据采集与预处理课件:网站模拟登录和数据采集案例.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共50页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

网站模拟登录和数据采集案例 ;本章学习目标

●分析业务网站人才招聘的网页结构和内容

●使用selenium和chromedriver实现网站的模拟登录

●使用selenium和chromedriver实现编写爬虫代码获取指定的静态和动态数据

●使用pymysql库实现数据的持久化;8.1任务描述;8.2页面分析;使用鼠标右键单击“登录”控件之后,将出现如下菜单选项,如图所示。通过使用鼠标左键单击该菜单选项中的“检查”选项,Chrome浏览器呈现自带的“开发者工具”,并将焦点指向该“求职者登录/注册”控件所在的具体的HTML页面结构当中。这里的目的是为了获取该“求职者登录/注册”控件所属的标签在页面内容中的class属性值“login-per-dialog”,;使用鼠标右键单击“登录”控件之后,将出现如下菜单选项,如图所示。通过使用鼠标左键单击该菜单选项中的“检查”选项,Chrome浏览器呈现自带的“开发者工具”,并将焦点指向该“求职者登录/注册”控件所在的具体的HTML页面结构当中。这里的目的是为了获取该“求职者登录/注册”控件所属的标签在页面内容中的class属性值“login-per-dialog”,;使用CHROME浏览器的“开发者工具”可以看到该登录页面位于一个form表单当中;在该表单控件中,使用密码登录的方式,可以选择“密码登录”控件,标签为div,类class=“change-login-type-itemactive”或者XPATH路径为://*[@id=commonLoginBox]/div[2]/form/div[1]/div[2];在该表单控件中,可以进一步地观察到其中包含的多个控件,包括一个type为text,id为login_box_account的input标签和一个type为password,id为login_box_password的input标签。这两个标签分别用于获取用户输入的用户名和密码;在该表单控件中,可以进一步地观察到其中包含的多个控件,包括一个type为text,id为login_box_account的input标签和一个type为password,id为login_box_password的input标签。这两个标签分别用于获取用户输入的用户名和密码;在该表单控件中还包含一个class为btn-submit的p标签。该标签的作用是将表单的数据统一向后台服务器进行提交,如图所示。如果用户填写的用户名和密码正确,该网站将跳转转到指定的页面。如果失败,则会提???用户名或者密码错误。; 网站模拟登录和数据采集案例 ;本章学习目标

●分析业务网站人才招聘的网页结构和内容

●使用selenium和chromedriver实现网站的模拟登录

●使用selenium和chromedriver实现编写爬虫代码获取指定的静态和动态数据

●使用pymysql库实现数据的持久化;8.1任务描述;8.2页面分析;使用鼠标右键单击“登录”控件之后,将出现如下菜单选项,如图所示。通过使用鼠标左键单击该菜单选项中的“检查”选项,Chrome浏览器呈现自带的“开发者工具”,并将焦点指向该“求职者登录/注册”控件所在的具体的HTML页面结构当中。这里的目的是为了获取该“求职者登录/注册”控件所属的标签在页面内容中的class属性值“login-per-dialog”,;使用鼠标右键单击“登录”控件之后,将出现如下菜单选项,如图所示。通过使用鼠标左键单击该菜单选项中的“检查”选项,Chrome浏览器呈现自带的“开发者工具”,并将焦点指向该“求职者登录/注册”控件所在的具体的HTML页面结构当中。这里的目的是为了获取该“求职者登录/注册”控件所属的标签在页面内容中的class属性值“login-per-dialog”,;使用CHROME浏览器的“开发者工具”可以看到该登录页面位于一个form表单当中;在该表单控件中,使用密码登录的方式,可以选择“密码登录”控件,标签为div,类class=“change-login-type-itemactive”或者XPATH路径为://*[@id=commonLoginBox]/div[2]/form/div[1]/div[2];在该表单控件中,可以进一步地观察到其中包含的多个控件,包括一个type为text,id为login_box_account的input标签和一个type为password,id为login_box_password的input标签。这两个标签分别用于获取用户输入的用户名和密码;在该表单控件中,可以进一步地观察到其中包含的多个控件,包括一个type为text,id为login_box_account的input标签和一个type为pass

您可能关注的文档

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档