网站大量收购闲置独家精品文档,联系QQ:2885784924

网易云爬虫爬取热评词云及评论者信息分析.pptx

网易云爬虫爬取热评词云及评论者信息分析.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

网易云爬虫爬取热评词云及评论者信息分析InformationContentSecuritycoursework汇报者:吴韧辉2021/6/29

目录CONTENTS代码实现问题难点爬取数据数据分析数据可视化图形化界面环境准备所用的库现实意义存在的问题窗口交互可视化图形代码实现与问题难点代码编写思路基础准备总结运行效果

环境准备所用的库基础准备01

基础准备环境准备: IDE:VSCode Python3.8.2所用的库: requests beautifulsoup json worldcloud jieba matplotlib os time datetime tkinter爬取网页并进行数据转换展示热评词云绘图时间戳转换图形化GUI

爬取数据数据分析数据可视化图形化界面代码编写思路02

代码编写思路

代码编写思路爬取数据根据网页流量包找到评论对应的请求链接,构造参数,获取评论信息和评论者id,将热评信息存入txt文件;评论者id存入列表,遍历列表以爬取各个用户的信息数据分析读取热评txt文件,使用jieba分词自带的jieba.analyse.extract_tags()(原理是TF-IDF算法)提取出10个关键词;评论者的信息提取出性别,年龄以及地区这三类信息并进行统计数据可视化使用词云展示热评关键词;使用饼状图展示评论者信息图形化界面方便用户交互,使用tkinter实现

代码实现问题难点代码实现与问题难点03

代码实现获取歌曲标题获取评论者ID评论者信息获取和分析热评获取获取全部评论信息热评分析,制作词云初始图形化界面

问题难点——网易云的反爬虫开始用的是网易云歌曲页面返回的数据包的网址进行爬取,需要传入两个加密的参数

问题难点经过观察,可知这两个参数应该与评论的翻页有关通过查阅资料,得知网易云会在网页前端动态生成一个encSecKey,使用这个密钥对页面的偏移量offset进行两次AES加密得到params将params和encSecKey传到服务器,进行加密验证,如果正确就会显示对应的评论页面按照资料中的加密算法进行代码编写,运行时仍然无效解决方法是使用网易云的评论的api进行爬取

窗口交互可视化图形运行效果04

运行效果

运行效果

运行效果

运行演示

现实意义存在的问题总结05

总结现实意义通过对网易云热评和对评论者的信息的分析,能够进一步地进行对用户的个性化的音乐推荐,做出符合用户听歌习惯的音乐推荐系统;同时能够通过热评的关键词对不同的音乐进行分类,能够通过用户群的信息对当前音乐市场进行分析,对于促进音乐产业的发展具有较大的现实意义。存在的问题jieba分词的不准确性,导致热评的关键词不准确在评论数量较多时,爬取速度较慢没有通过对评论做过滤,从而一些无效的评论的用户也被纳为有效数据源只能通过歌曲链接进行爬取,不太方便

敬请老师和同学批评指正TAHNKYOUFORWATCHING

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档