- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
租房爬虫
爬虫技术
关键代码
数据分析
运行结果
01.
02.
03.
04.
目录
01
爬虫技术
01
爬虫技术
1
2
3
request.get(url,params=None,**kwargs)
其中,url为获取页面的链接,params为额外参数,字典或者字节流格式,其为可选。**kwargs为12个控制访问的参数。
BeautifulSoup提供一些简单的、python式的函数用来处理导航、有哪些信誉好的足球投注网站、修改分析树等功能。
pyecharts是一款将python与echarts结合的强大的数据可视化工具。
请求库:requests
HTML解析:BeautifulSoup
数据可视化:pyecharts
爬虫技术
01
导入相关包
importre
importrequests
importrandom
importtime
frombs4importBeautifulSoup
frompyecharts.chartsimportBar,Line,Page,Pie
frompyechartsimportoptionsasopts
爬虫技术
01
请求头
user_agent_list=[
Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.1(KHTML,likeGecko)Chrome/22.0.1207.1Safari/537.1,
Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/536.6(KHTML,likeGecko)Chrome/20.0.1092.0Safari/536.6,
Mozilla/5.0(WindowsNT6.2;WOW64)AppleWebKit/537.1(KHTML,likeGecko)Chrome/Safari/537.1,
]
UA=random.choice(user_agent_list)
headers={User-Agent:UA}
爬虫技术
01
目标网址
url=/zufang/pg
02
关键代码
02
关键代码
#目标网址
url=/zufang/pg
#要获取的信息
title_list=[]#标题
price_list=[]#租金
position_list=[]#地理位置
size_list=[]#房子面积
02
关键代码
#标题
title=li_quick.find(a,class_=twoline).get_text().strip()
#租金
price=li_quick.find(span,class_=content__list--item-price).find(em).get_text().strip()
#位置信息
position=li_quick.find(p,class_=content__list--item--des).find(a).get_text().strip()
#面积
size=re.findall(r\d+㎡,temp_size)
02
关键代码
aclass=twolinetarget=_blankhref=/zufang/XZ2795760721969807360.html整租·绿地国际花都1室1厅南/a
爬虫技术
01
数据存储
df=pd.DataFrame({标题:title_list,
租金:price_list,
位置:position_list,
面积:size_list})
df.to_excel(zufang.xlsx,index=False)
数据分析
03
03
数据分析
defarea_house_num()-Bar:
c=(
Bar(init_opts=opts.InitOpts(width=600px,height=300px))
.add_xaxis(list(area_num_dict.keys()))
.add_yaxis(数量,list(area_num_dict.values()))
.set_global_opts(
title_opts=opts.TitleOpts(tit
文档评论(0)