基于文本挖掘的微博文本情绪分析技术研究.docxVIP

基于文本挖掘的微博文本情绪分析技术研究.docx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

基于文本挖掘的微博文本情绪分析技术研究

?

?

戴天翔+岑鑫+柳珺文+王帅+欧阳帆

摘要:该文主要针对中文微博的细粒度情绪识别技术中的关键技术展开研究,分析了中文微博的研究难点和微博情感表达特征,提出了一种微博文本情绪显性特征的多策略集成分析法。最后实验组以新浪微博中某一主题为实验数据,对“乔任梁去世”事件这一热点话题的评论文本数据集进行分析,验证了该文的微博情感分析能力,同时还将情感分析结果进行了可视化展示。

关键词:微博情绪细粒度分析

:F83:A:1672-3791(2017)03(a)-0209-04

近几年随着网络通信技术的发展,微博已经逐渐成为人们喜欢使用的交流工具。人们喜欢在微博上抒发自己的情绪、表达自己的观点。正因如此,大量充满真实感情的微博文本已经悄悄地成为了情绪分析的重要资源。总而言之,微博是一种高度社会化的传播平台:它集中了人们广为熟悉的3种沟通方式——电子邮件、即时通信工具、媒体的优点,又都赋予他们社会化特征[1]。

中文微博是该文的研究对象,在微博的情感极性判断上是目前国内所集中的研究方向,如分析微博表达是正面还是负面,此类研究已经取得了一定成绩并开始广泛应用,然而若要获取微博表达的更细致的情感时再采用传统的粗粒度分析已经无法满足。该文介绍了一种微博情绪细粒度分析方法,并对使用上述方法,进行了相关实验,并给出了实验结果。

1中文微博细粒度情绪分析研究主要相关技术

在1995年由麻省理工学院的Picard教授在其论文AffectiveComputing中提出了情感分析的概念,是指对于意见,情绪和情感的计算研究,同时情感分析也被称为情感探测、情绪分类或意见挖掘等[2]。中文微博细粒度情绪分析研究所要达到的任务目标为:输入一整条微博,要求系统去判断出这条微博中是否包含情绪。本文通过研究多策略集成分析,先对中文微博文本进行预处理,再将细粒度情绪分析任务分为两个部分。首先为微博的有无情绪两类判别,这一部分中主要采用基于迭代的朴素贝叶斯分类算法,无情绪的微博输出为NONE,有情绪的微博将进入第二个部分。第二步为对分类为有情绪的微博进行七类细粒度情绪的识别,输出为害怕、喜欢、生气、厌恶、伤心、惊喜、幸福着七类情绪中的一种,该步骤中的主要采用方法为KNN算法。

1.1细粒度情绪特征表示及权值计算

词是中文微博文本中最为主要的元素,在文本分析研究中一般是将文本表示成词向量,然而具体到中文微博的情绪分析中,由于情感词是本研究所要主要关注的对象,所以该研究是将每条微博表示成有关情感词的向量。但是,因为中文微博具有短文本的特性,所以每条微博一般只包含了很少量的情感词,而中华汉语言的情感词库又极其庞大,情感极其丰富,这样所表示出来的微博语料向量矩阵将会非常稀疏,这是不愿看到的情况,在这种情况下不单单会让计算变得异常复杂,带来巨大的维数灾难,更严重的是会对分类性能造成十分严重的不良影响。

该文介绍的一种解决方法是基于大连理工情绪本体库中定义的21个小类情感[5],这种方法的大概思路就是将每条微博表示成维度为21维的向量,每一维度对应于21个小类情感中的一类,简而言之就是选择大连理工情绪本体库中固定的21个小类情感作为每条中文微博的特征。21类情感[5]为快乐(PA)、安心(PE)、尊敬(PD)、赞扬(PH)、相信(PG)、喜爱(PB)、祝愿(PK)、失望(NJ)、疚(NH)、恐惧(NC)、羞(NG)、烦闷(NE)、憎恶(ND)、贬责(NN)、愤怒(NA)、悲伤(NB)、妒忌(NK)、思(PF)、慌(NI)、怀疑(NL)、惊奇(PC)。这样就可以使得微博语料的特征矩阵变得不再稀疏,从而方便了计算,达到了降维的目的。

1.2基于迭代的朴素贝叶斯有无情绪分类

朴素贝叶斯学习理论是一种基于假设先验知识的学习方法[3],该算法的思想是对于等待分类的那些文本,去计算出这些文本在该特征项出现的情况下各种情绪类别出现的概率,最后依据情绪类别的概率来进行划分。在预测一次抛硬币得到正反哪一面的實验中,正反两面出现的概率为均等的先验知识,由一定的背景知识所得到的初始概率值就被称为先验知识。在很多朴素贝叶斯分类的实际应用中,先验知识通常是由训练集中的各类样本所占总样本的比例得到的[4]。例如,在有无情绪二分类中,先验概率可由如下公式得到:

(1)

当i=0时,P(h0)等于无情绪微博样本数n0比上所有的微博样本数N,表示无情绪微博先验概率,当i=1时,P(h1)等于有情绪微博样本数n1比上所有的微博样本数N,表示有情绪微博先验概率。

该文介绍的这种基于迭代的朴素贝叶斯分类算法[5],其主要思想是在实验人员手头上有大量的待测试集合的情况下,但已标明注释的训练集偏少,就可以利用大量的待测试集合的数据来弥补这些不足之处,具

您可能关注的文档

文档评论(0)

186****3372 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档