网站大量收购闲置独家精品文档,联系QQ:2885784924

python豆瓣音乐排行榜数据爬取分析及可视化.docx

python豆瓣音乐排行榜数据爬取分析及可视化.docx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

python豆瓣音乐排行榜数据爬取分析及可视化

python|豆瓣音乐排行榜数据爬取分析及可视化

一、选题背景

其实简单的对信息的下载,我们用不到爬虫出马,简单的一个单机下载,就可以解决下载的问题,但是对于想要多个音乐(排行榜里),有一定规律的音乐进行下载我们就可以看到Python给我们带来的便利,其实也是一种对数据进行搜集的一种方式。希望通过简单的音乐排名的爬取可以让我们更加了解python,并且对音乐数据背后带来的信息进行分析。对于音乐爬取,这个不涉及到版权的问题,爬取上应该没有太多的限制,那我们要找的就是一个音乐排行榜进行爬取学习,分析。我这里找的是豆瓣音乐本周音乐人最热单曲排行榜。我们确定我们想要的数据对应的排行了,这样我们对于我们的目标就又近了一步。

二、设计方案

1、名称

豆瓣音乐排行榜数据爬取分析及可视化

2.内容与数据特征分析

爬取歌曲播放量的数据,分析各类数据之间的特征与关系

3.设计方案概述

通过访问网页源代码,爬取数据,分析html页面,标记需要的数据标签,对数据提取、处理、可视化、绘制图形、保存数据。

三、主题页面的结构特征分析

1、主题页面的结构与特征分析

从下方网站页面截图可看出,页面结构大致分为三部分,我们需要爬取的数据基本在左下边,其他的可以不去考虑。

2、Htmls页面解析

3.节点(标签)查找方法与遍历方法(必要时画出节点树结构)

四、网络爬虫程序设计

1、数据爬取与采集

1#-*-coding=utf-8-*-

2frombs4importBeautifulSoup

3#进行网页解析

4

5importre

6#进行文字匹配

7

8importurllib.request,urllib.error

9#制定URL,获取网页数据

10

11importxlwt

12#进行excel操作

13

14importsqlite3

15#进行SQLite数据库操作

16

17

18#开始爬取数据

19defgetData(url):

20datalist=[]

3#导入数据

21html=askURL(url)

22soup=BeautifulSoup(html,html.parser)

23i=1

24foriteminsoup.find_all(li,class_=clearfix):

25data=[]

26item=str(item)

27pm=i

28i=i+1

29data.append(pm)

30findgm=pile(rjavascript:;(.*?)/a)

31gm=re.findall(findgm,item)[0]

32data.append(gm)

33ifi=11:

34findbfl=pile(r\xa0/\xa0(.*?)/p)

35bfl=re.findall(findbfl,item)[0]

36data.append(bfl)

37else:

38findbfl2=pile(r\xa0/\xa0(.*?)\n)

39bfl2=re.findall(findbfl2,item)[0]

40data.append(bfl2)

41datalist.append(data)

42ifi==16:

43break

44returndatalist

45

46

47

48defaskURL(url):

49head={

50User-Agent:Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/96.0.4664.110Safari/537.3651}

52request=urllib.request.Reque

文档评论(0)

zhanghaoyu888 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档