- 1、本文档共40页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据采集与可视化案例 ;本章学习目标
●分析链家二手房的网页结构和内容
●使用requests库编写爬虫代码获取指定数据
●使用BeautifulSoup实现数据的解析
●使用pymysql库实现数据的持久化
●使用flask和echarts实现数据可视化;7.3链家二手房数据采集与可视化;如图7-3所示,该页面能够清楚地定位到二手房的相关信息,包括地区、户型、面积、装修类型、楼层、房屋类型、售价等信息。因此,该爬虫综合案例使用的URL将是这个拥有二手房相关信息的页面。;使用鼠标右键单击页面的房屋位置之后(比如“松树桥”),将出现如下菜单选项,如图7-4所示。通过使用鼠标左键单击该菜单选项中的“检查”选项,Chrome浏览器呈现自带的“开发者工具”,并将焦点指向该“松树桥”链接控件所在的具体的HTML页面结构当中。这里的目的是为了获取该“松树桥”链接控件所属的标签在页面内容中的class属性值“positionInfo”,如图7-5所示。;到此,根据任务需求,通过使用CHROME浏览器访问并分析了链家二手房网站的“松树桥”链接控件在该页面中的具体位置,状态及其class属性值,为下一步使用代码的编写找准了目标。
“松树桥”是二手房的位置信息,由于其是链接控件,通过右键点击“检查”可以找到具体位置。但二手房的户型、房价等信息不是控件,无法通过右键点击“检查”进行定位。为了定位二手房的其他信息,可以使用CHROME浏览器的“开发者工具”的有哪些信誉好的足球投注网站功能进行定位。;比如需要定位二手房的房价信息,如图7-6所示,在有哪些信誉好的足球投注网站栏中输入“115”,可以定位房价信息的所在位置。;因此,进一步获取房价所属的标签在页面内容中的class属性值“totalPricetotalPrice2”,如图7-7所示。二手房的户型、面积、装修类型、楼层、房屋类型、均价等其他信息可以通过同样的方法有哪些信誉好的足球投注网站从而定位到准确的位置,获取相应的class值。;数据安全不仅包括公民个人的数据安全,还包括企业和政府的数据安全。公民数据安全涉及个人隐私和生命安全,企业数据安全涉及商业秘密和企业权益,政府数据安全涉及国家秘密和公共利益,任何一个方面的数据安全问题处理不好,都会影响到政治安全、社会稳定、国家???衰。
数据安全法的实施,将有助于进一步提升国家数据安全保障能力,有助于加强我国应对因数据引发的国家安全风险与挑战,有助于维护国家主权、安全和发展利益。
数据采集为全面数据安全管理提供数据支撑。数据采集作为数据安全建设的第一步,需将分布在各业务系统中的用户行为数据、业务支撑数据、安全事件等数据信息进行采集、存储,为后续的数据审计、分析、挖掘以及安全运营等提供数据支撑。因此,构建以大数据技术为基础的数据采集系统势在必行,成为各企业的共同选择。;7.2.2数据获取;1)导入爬虫代码需要使用的requests库用于获取URL的页面响应数据,实现数据的精确定位和操作。
importrequests
2)构造爬虫代码请求该URL的Headers头部信息。在开发者工具的“Network”选项卡下的“Headers”选项卡中得到该默认URL的Headers头部信息。其目的是向智通人才网的后台服务器隐藏爬虫代码的真实身份,让爬虫代码带着这些请求信息伪装成浏览器正常访问该网站服务器的状态,而不被服务器的反爬措施发现。
headers={
User-Agent:Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/74.0.3729.108Safari/537.36
};3)声明变量url用于获取指定的爬取的URL。这里将链家二手房页面的URL赋值给url。
url=cq.lianjia/ershoufang/#d#
temp_url=url.replace(#d#,fpg{idx})
4)声明变量response用于获取requests库的get方法从上一步指定的url和headers中获取的页面响应数据。
response=requests.get(url,headers=headers)
5)使用BeautifulSoup库解析页面,进一步精确获取相应的class值。
soup=BeautifulSoup(response.text,html.parser)
lis=soup.find(ul,class_=sellListContent)
;6)使用for循环语句遍历各个div标签以获取所有div标签中相应class值的静态数据,包括:地区(region)、户型(house_type)、面积(area_list)、装修类型(deco
您可能关注的文档
- 大数据采集与预处理课件:Python 编程环境搭建.pptx
- 大数据采集与预处理课件:requests技术应用案例.pptx
- 大数据采集与预处理课件:存储数据.pptx
- 大数据采集与预处理课件:存储数据-CSV和JSON格式.pptx
- 大数据采集与预处理课件:存储数据-MySQL的安装与使用.pptx
- 大数据采集与预处理课件:大数据Hadoop平台的Flume数据采集框架.pptx
- 大数据采集与预处理课件:实现简单数据采集.pptx
- 大数据采集与预处理课件:数据采集与可视化案例.pptx
- 大数据采集与预处理课件:网站模拟登录和数据采集案例.pptx
- 大语言模型通识微课课件:大语言模型的定义.pptx
- 5.3.1函数的单调性(教学课件)--高中数学人教A版(2019)选择性必修第二册.pptx
- 部编版道德与法治2024三年级上册 《科技提升国力》PPT课件.pptx
- 2.7.2 抛物线的几何性质(教学课件)-高中数学人教B版(2019)选择性必修第一册.pptx
- 人教部编统编版小学六年级上册道德与法治9 知法守法 依法维权(第一课时)课件.pptx
- 三年级上册品德道德与法治《学习伴我成长》.pptx
- 部编版小学道德与法治六年级上册6 人大代表为人民 课件.pptx
- 部编版小学道德与法治六年级上册1感受生活中的法律第一课时课件.pptx
- 2.5.2圆与圆的位置关系(教学课件)-高中数学人教A版(2019)选择性必修第一册.pptx
- 2.5.1直线与圆的位置关系-(教学课件)--高中数学人教A版(2019)选择性必修第一册.pptx
- 14.1.1 同底数幂的乘法(教学课件)-初中数学人教版八年级上册.pptx
文档评论(0)