网站大量收购闲置独家精品文档,联系QQ:2885784924

python评论分析_基于Python-Snownlp的新闻评论数据分析 .pdf

python评论分析_基于Python-Snownlp的新闻评论数据分析 .pdf

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

python评论分析_基于Python-Snownlp的新闻评论数据分析

摘要⽹上热点新闻的评论不仅反映了民众对社会热点事件的关注程度,也反映了公众所表现出的各类情感价值和思想动态。基于Python-

Snownlp经过数据采集,数据预处理,建⽴向量模型,数据挖掘与分析对新闻评论中⽤户观点与情绪进⾏研究,有效實现舆情分析和监控。

关键词PythonSnownlp;⽹络爬⾍;聚类分析;情感分析

中图分类号G2⽂献标识码A⽂章编号1674-6708(2018)219-0104-02

步⼊互联⽹“+”与⼤数据时代,⽹络媒体已经成为舆论新格局的重要组成部分,⼈们更倾向于通过互联⽹关注社会中的热点问题,并通过⽹络

媒体来发表个⼈意见和看法。

⽂章从凤凰新闻、新浪新闻、环球⽹⽹页⼊⼿,使⽤Python的Scrapy框架来访问⽹页URL,解析页⾯评论信息,将抓取的评论信息存储到

Mysql数据库中。抽取数据并进⾏预处理清洗,调⽤Python开源的分词模块jieba分词对⽂本进⾏分词,去除停⽤词、敏感词,建⽴相应的语

料库。使⽤TF-

IDF算法将语料库中的词语转化成词矩阵模型,使⽤K-

Means算法对评论数据进⾏聚类分析挖掘,采⽤Python专为中⽂⽂本设计的Snownlp模块对数据进⾏情感分析。

1数据采集

采⽤⽹络爬⾍技术进⾏数据获取,选取了影响⽐较⼤的造谣伊利董“事长失联事件”这⼀热点事件的新闻评论作为数据集,使⽤⽹络爬⾍技术

从Web端抓取新闻评论数据集。⾸先,通过访问URL地址获取Web服务器端返回得数据,并解析数据抓取资源。请求模块是向⽹页URL发送

请求,并获取⽹页源代码。解析模块是对⽹页源代码的解析,去除源代码中的JS脚本标签,CSS代码、HTML标签等内容,并将解析后的数

据下载下来。资源库则是⽤来存放从⽹络上抓取下来的数据资源。并进⾏JS拼接,使⽤Scrapy模块进⾏解析,Scrapy模块是Python开发的

⼀个快速、⾼层次的屏幕抓取和Web抓取框架,⽤于抓取Web站点并从页⾯中提取结构化的数据。

Scrapy使⽤了Twisted异步⽹络库来处理⽹络通讯,架构清晰,并且包含了各种中间件接⼝。引擎(Scrapy

Engine),⽤来处理整个系统的数据流处理,触发事务。然后存储到Mysql数据库。

2数据预处理

从⽹页采集下来的⽂本数据,存在较多的脏数据,需要进⾏⼀系列的数据预处理,主要⼯作有数据清洗、中⽂分词、去除停⽤词等。从腾讯

新闻⽹抓取的新闻评论数据存在较多的⼲扰信息,⽐如重复冗余评论,存在HTML标签的评论,带有表情的评论等。从Web采集下来的新闻

评论数据并不⼲净,使⽤Python正则表达式的⽅法re.sub()匹配去除,通过正则表达式查找匹配HTML标签,并将HTML标签替换成空字

符串。

中⽂分词是中⽂⽂本挖掘和信息处理的基础环节,结巴“”分词是Python社区开源的分词项⽬。经过它分词后的数据还有很多⼲扰项,在中⽂

⽂本中,会存在着这样⼀些词汇,使⽤频率虽然极⾼,但是本⾝却没有意义如:在“”“的”“万⼀”等以⼀些中⽂标点符号和键盘符号

如:?“”“!”等,这些词汇本⾝没有什么实际意义,使⽂本的相似度增加,也增加了⽂本挖掘的难度。本⽂从⽹络上搜集了2

630个常⽤的停⽤词,将其加载到结巴“”分词的停⽤词库中,在分词时过滤掉评论数据中的停⽤词,排除语料库中的⼲扰项,同时也能够提

⾼中⽂分词的准确性。

3评论数据挖掘分析

将评论数据转化为向量模型,然后从聚类分析,情感分析和可视化分析3个⽅⾯对评论数据进⾏分析和挖掘。

⽂章使⽤向量空间模型来描述⽂本的特征。过滤了停⽤词后的中⽂分词词汇作为新闻评论的特征项词汇,使⽤TF-

IDF算法对特征词进⾏权重计算,TF为词“频”,IDF为逆“⽂档频率”,这个值相乘,就得到了⼀个词的TF-IDF值。TF-

IDF值反映了⼀个词在⽂本中的重要性。评论数据经过数据清洗,中⽂分词,过滤停⽤词、处理后,使⽤Python中sklearn模块的

TfidfTransformer、CountVectorizer⽅法计算TF-

IDF权重,转化为向量空间模型。之后就对数据进⾏分析与挖掘。

评论数据属于⾮结构化数据,数据本⾝是不带有属性和标签的,因此选择采⽤K-

Means聚类算法进⾏聚类分析,K-means算法属于⽆监督学习,初始k的选取⾄关重要。

使⽤肘部法则解决此问题,肘部法则会将不同k值的成本函数画出来,当k值增⼤时,平均畸变程度的改善效果会不断降低。k值增⼤过程

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档