大数据采集与预处理课件:数据采集与可视化综合案例.pptx

大数据采集与预处理课件:数据采集与可视化综合案例.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共40页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据采集与可视化案例 ;本章学习目标

●分析链家二手房的网页结构和内容

●使用requests库编写爬虫代码获取指定数据

●使用BeautifulSoup实现数据的解析

●使用pymysql库实现数据的持久化

●使用flask和echarts实现数据可视化;7.3链家二手房数据采集与可视化;如图7-3所示,该页面能够清楚地定位到二手房的相关信息,包括地区、户型、面积、装修类型、楼层、房屋类型、售价等信息。因此,该爬虫综合案例使用的URL将是这个拥有二手房相关信息的页面。;使用鼠标右键单击页面的房屋位置之后(比如“松树桥”),将出现如下菜单选项,如图7-4所示。通过使用鼠标左键单击该菜单选项中的“检查”选项,Chrome浏览器呈现自带的“开发者工具”,并将焦点指向该“松树桥”链接控件所在的具体的HTML页面结构当中。这里的目的是为了获取该“松树桥”链接控件所属的标签在页面内容中的class属性值“positionInfo”,如图7-5所示。;到此,根据任务需求,通过使用CHROME浏览器访问并分析了链家二手房网站的“松树桥”链接控件在该页面中的具体位置,状态及其class属性值,为下一步使用代码的编写找准了目标。

“松树桥”是二手房的位置信息,由于其是链接控件,通过右键点击“检查”可以找到具体位置。但二手房的户型、房价等信息不是控件,无法通过右键点击“检查”进行定位。为了定位二手房的其他信息,可以使用CHROME浏览器的“开发者工具”的有哪些信誉好的足球投注网站功能进行定位。;比如需要定位二手房的房价信息,如图7-6所示,在有哪些信誉好的足球投注网站栏中输入“115”,可以定位房价信息的所在位置。;因此,进一步获取房价所属的标签在页面内容中的class属性值“totalPricetotalPrice2”,如图7-7所示。二手房的户型、面积、装修类型、楼层、房屋类型、均价等其他信息可以通过同样的方法有哪些信誉好的足球投注网站从而定位到准确的位置,获取相应的class值。;数据安全不仅包括公民个人的数据安全,还包括企业和政府的数据安全。公民数据安全涉及个人隐私和生命安全,企业数据安全涉及商业秘密和企业权益,政府数据安全涉及国家秘密和公共利益,任何一个方面的数据安全问题处理不好,都会影响到政治安全、社会稳定、国家???衰。

数据安全法的实施,将有助于进一步提升国家数据安全保障能力,有助于加强我国应对因数据引发的国家安全风险与挑战,有助于维护国家主权、安全和发展利益。

数据采集为全面数据安全管理提供数据支撑。数据采集作为数据安全建设的第一步,需将分布在各业务系统中的用户行为数据、业务支撑数据、安全事件等数据信息进行采集、存储,为后续的数据审计、分析、挖掘以及安全运营等提供数据支撑。因此,构建以大数据技术为基础的数据采集系统势在必行,成为各企业的共同选择。;7.2.2数据获取;1)导入爬虫代码需要使用的requests库用于获取URL的页面响应数据,实现数据的精确定位和操作。

importrequests

2)构造爬虫代码请求该URL的Headers头部信息。在开发者工具的“Network”选项卡下的“Headers”选项卡中得到该默认URL的Headers头部信息。其目的是向智通人才网的后台服务器隐藏爬虫代码的真实身份,让爬虫代码带着这些请求信息伪装成浏览器正常访问该网站服务器的状态,而不被服务器的反爬措施发现。

headers={

User-Agent:Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/74.0.3729.108Safari/537.36

};3)声明变量url用于获取指定的爬取的URL。这里将链家二手房页面的URL赋值给url。

url=cq.lianjia/ershoufang/#d#

temp_url=url.replace(#d#,fpg{idx})

4)声明变量response用于获取requests库的get方法从上一步指定的url和headers中获取的页面响应数据。

response=requests.get(url,headers=headers)

5)使用BeautifulSoup库解析页面,进一步精确获取相应的class值。

soup=BeautifulSoup(response.text,html.parser)

lis=soup.find(ul,class_=sellListContent)

;6)使用for循环语句遍历各个div标签以获取所有div标签中相应class值的静态数据,包括:地区(region)、户型(house_type)、面积(area_list)、装修类型(deco

您可能关注的文档

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档