- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
python豆瓣音乐排行榜数据爬取分析及可视化
python|豆瓣音乐排行榜数据爬取分析及可视化
一、选题背景
其实简单的对信息的下载,我们用不到爬虫出马,简单的一个单机下载,就可以解决下载的问题,但是对于想要多个音乐(排行榜里),有一定规律的音乐进行下载我们就可以看到Python给我们带来的便利,其实也是一种对数据进行搜集的一种方式。希望通过简单的音乐排名的爬取可以让我们更加了解python,并且对音乐数据背后带来的信息进行分析。对于音乐爬取,这个不涉及到版权的问题,爬取上应该没有太多的限制,那我们要找的就是一个音乐排行榜进行爬取学习,分析。我这里找的是豆瓣音乐本周音乐人最热单曲排行榜。我们确定我们想要的数据对应的排行了,这样我们对于我们的目标就又近了一步。
二、设计方案
1、名称
豆瓣音乐排行榜数据爬取分析及可视化
2.内容与数据特征分析
爬取歌曲播放量的数据,分析各类数据之间的特征与关系
3.设计方案概述
通过访问网页源代码,爬取数据,分析html页面,标记需要的数据标签,对数据提取、处理、可视化、绘制图形、保存数据。
三、主题页面的结构特征分析
1、主题页面的结构与特征分析
从下方网站页面截图可看出,页面结构大致分为三部分,我们需要爬取的数据基本在左下边,其他的可以不去考虑。
2、Htmls页面解析
3.节点(标签)查找方法与遍历方法(必要时画出节点树结构)
四、网络爬虫程序设计
1、数据爬取与采集
1#-*-coding=utf-8-*-
2frombs4importBeautifulSoup
3#进行网页解析
4
5importre
6#进行文字匹配
7
8importurllib.request,urllib.error
9#制定URL,获取网页数据
10
11importxlwt
12#进行excel操作
13
14importsqlite3
15#进行SQLite数据库操作
16
17
18#开始爬取数据
19defgetData(url):
20datalist=[]
3#导入数据
21html=askURL(url)
22soup=BeautifulSoup(html,html.parser)
23i=1
24foriteminsoup.find_all(li,class_=clearfix):
25data=[]
26item=str(item)
27pm=i
28i=i+1
29data.append(pm)
30findgm=pile(rjavascript:;(.*?)/a)
31gm=re.findall(findgm,item)[0]
32data.append(gm)
33ifi=11:
34findbfl=pile(r\xa0/\xa0(.*?)/p)
35bfl=re.findall(findbfl,item)[0]
36data.append(bfl)
37else:
38findbfl2=pile(r\xa0/\xa0(.*?)\n)
39bfl2=re.findall(findbfl2,item)[0]
40data.append(bfl2)
41datalist.append(data)
42ifi==16:
43break
44returndatalist
45
46
47
48defaskURL(url):
49head={
50User-Agent:Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/96.0.4664.110Safari/537.3651}
52request=urllib.request.Reque
您可能关注的文档
- 知识产权法期末考试题及答案.docx
- 直线单级倒立摆最优控制器的设计.docx
- 中国中铁股份有限公司2022年度财务报表分析.docx
- 中山大学现代生命科学期末试卷汇总.docx
- 中医药治疗消渴病汗症研究进展.docx
- 《传感器技术》课程教案.docx
- 《区域经济学》期末复习重点.docx
- 《水污染控制工程》课程设计.docx
- 【doc】1000V可调脉动直流电源设计.docx
- 【实验报告】频率响应测试.docx
- DB12 046.89-2011 产品单位产量综合电耗计算方法及限额 第89部分:手机 .docx
- DB12 046.88-2011 产品单位产量综合电耗计算方法及限额 第88部分:晶振 .docx
- DB12T 419-2010 无公害农产品 核桃栽培管理技术规范 .docx
- DB12T 417-2010 沙化和荒漠化监测技术规程.docx
- DB12T 449-2011 民用建筑四防门通用技术条件.docx
- DB12 046.100-2011 产品单位产量综合能耗计算方法及限额 第100部分: 果汁饮料 .docx
- DB12T 427-2010 葱姜蒜中205种农药多残留测定方法-GCMS法.docx
- DB12T 421-2010 有机农产品 甘薯有机栽培技术规范.docx
- DB12T 426-2010 蔬菜水果中205种农药多残留测定方法-GCMS法 .docx
- 《老年人身体康复》精品课件——项目6 中国传统康复技术.pptx
文档评论(0)