网站大量收购独家精品文档,联系QQ:2885784924

《基于互联网+大数据的舆情分析》课件_第5章.pptx

《基于互联网+大数据的舆情分析》课件_第5章.pptx

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第5章基于社会热点事件的用户情感挖掘与倾向性分析;

5.1情感可视化;

1.文本预处理和分词

首先,将文本中表情符号进行特殊标记,然后将无关的Html代码去除。其次,有转播的微博广播在据收集时会将被转播的内容收集为一条文本,广播与被转播文本之间会用“//”符号进行分割,并且“//”符号之后会接被转播的用户名和账号,所以本文根据此特征对有转播的广播与被转播对象进行分割,确保单条微博中的所有内容是单个用户所发布的。最后,对处理后的文本进行分词,

本文使用的分词工具为IKAnalyzer分词器,分词之前将已构建的情感词表加入到分词器的词表中,避免已有情感词被分割。;

2.情感词提取

情感词的提取过程主要利用已构建的情感词表,在文本中对词表中含有的情感词进行查找并加入已定义的情感词编码标签。

3.统计情感词并定义词语之间的关系

对已标记的情感词进行统计,通过情感词列表和各情感词的词频可看出热点事件情境下用户情感表达所使用的词语,高频情感词通常是整个事件的主导情感,词频极高的情感词通常是某一或某几条关于事件的描述微博被其他用户粘贴到自己的博文中进行转发和评论。;

4.情感词可视化

情感词可视化主要是对情感词之间的关系进行可视化,根据词语之间的共现关系权重,采用位置算法,将词语安排在图形中的特定位置,通过图形位置展示词语之间的关联。;

5.1.2情感可视化的结果与发现

首先对情感词词频分布进行分析,设情感词Wi的词频为r,n为词频为r的情感词个数,图5-1和图5-2分别为“和颐酒店女生遇袭”“成都女司机被打”事件文本中情感词的词频分布情况。;

;

;

图5-3和图5-4分别为“和颐酒店女生遇袭”事件、“罗一笑”事件中频次在200次以上的情感词的可视化效果。可视化图没有考虑否定词、句型和表情等特征,图形展示仅仅针对微博文本中的情感词。;

;

;

图5-5、图5-6分别为“和颐酒店女生遇袭”事件、

“罗一笑”事件中频数在5-50的低频情感词可视化图,由这些低频词可见用户自身情感表达用词更加随意,如“麻木不仁”“节操”“一本正经”“好不容易”“人人自危”等。;

;

;

5.2情感极性强度和类型统计;

;

“罗一笑”事件正面微博(强度>0)和负面微博(强度<0)的比例如图5-8所示。在“罗一笑”事件相关微博中,正面微博数量最多,达4809条,占总数量的65%,甚至超过负面微博(17661条)和中性微博(8271条)总量的一倍。可见,虽然“罗一笑”事件对社会造成了较大的负面影响,但总体来说,网民对该事件的情感较为正面,态度较为积极。;

;

依据极性强度可以将用户情感分为一般、中度、高度三个不同的程度,对于正面微博,强度0~10为一般,10~20为中度,20以上为高度;对于负面微博,强度-10~0为一般,-20~-10为中度,-20以下为高度。在“和颐酒店女生遇袭”事件、“罗一笑”事件中,各程

度正面微博和负面微博发布数量分别如图5-9和图5-10所示。可见,两个事件中“一般”程度微博数量占据极大比例,任一程度的积极情绪微博数量均多于消极情绪微博数量。;

;

;

5.2.2情感类型统计

依据第3章对情感词的极性和强度的标记,在“和颐酒店女生遇袭”事件中,对8439个情感词的极性强度进行了统计,得到正面情感词2990个,负面情感词3307个,中性情感词2142个。对“和颐酒店女生遇袭”事件微博文本中排名前30的情感词进行统计,结果如表5-1所示,这些高频情感词可以反映出整个事件中用户的主要情感以及对该事件的主要关注点,由“强奸”“安全”“犯罪”等高频词可以看出,用户在面对“和颐酒店女生遇袭”这一社会事件时表达最多的情绪是谴责。;;

事件所涉及的情感词数量繁多、分布杂乱,且有些词语呈中性,看不出具体的情感,也有很多词语表达了同种情感。所以本节按照第3章建立的情感分类体系对情感类型进行统计和整理,将匹配到的8439个情感词划分到相应的情感类别下,最终得到的各类型情感图5-11“和颐酒店女生遇袭”事件中二级情感类型所含情感词频次的统计结果如图5-11所示。;

;

将图5-11中的二级情感归类到一级情感类型下,得到的情感类型统计结果如图5-12所示,在“和颐酒店女生遇袭”事件中,主导情感为“恶”。通过分析微博文本内容可以发现,网络上充斥着对和颐酒店管理层疏于管理的谴责,对涉案男子暴力行为的憎恶,甚至还包括部分用户对围观

文档评论(0)

酱酱 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档