网站大量收购独家精品文档,联系QQ:2885784924

《微博热点话题情感分析的算法设计综述》3800字.docx

《微博热点话题情感分析的算法设计综述》3800字.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

微博热点话题情感分析的算法设计综述

目录

TOC\o1-2\h\u6315微博热点话题情感分析的算法设计综述 1

157661.1热点话题情感分析算法流程 1

214211.2构建微博基础情感词典 2

72481.3构建修饰词词典 3

54681.3.1否定词词典 3

57071.3.2程度副词词典 3

246951.4语义规则分析 4

101061.1.1词语多元组 4

318841.1.2句型规则 4

284041.1.3句间规则 5

130751.5话题情感计算 5

如何判别文本的情感极性在自然语言处理领域中是一个复杂的研究问题,其中情感词的正负倾向是情感极性很重要的判断依据。传统基于情感词典的方法分析文本时,最常用的方法是将文本中出现的词语和情感词典进行对比,若在情感词典中出现则标注情感词的极性并赋予权值,之后利用文本中情感词的累加计算文本极性。基于情感词典的方法简单快速,但是单一的只考虑情感词而忽略文本语义,不能根据语境进行判断,误差很大,并不能满足如今对微博文本情感分析的准确度要求。

1.1热点话题情感分析算法流程

为了尽可能全面的考虑对微博情感的影响因素,本文对能够影响微博情感的修饰词和句型结构也进行分析。对于情感词,本文将能够改变情感词极性和强度的否定词、程度副词等进行分析,根据修饰词和否定词之间的搭配构建词语多元组。对于微博的句型结构,微博文本可以根据标点符号划分为若干个复句,复句又可以划分为若干个分句,本文分别分析了复句的句型规则和分句的句间规则对微博文本情感的影响,从情感词和语义规则两方面对微博文本的情感极性进行研究,算法设计流程图如4-1所示:

图4-1情感分析算法的流程图

Fig.4-1FlowChartofSentimentAnalysisAlgorithm

1.2构建微博基础情感词典

文本中的情感词是情感分析处理的基础,通常情感词和整条文本的情感极性密切相关,因此需要在文本中提取。在文本分词之后,可以将待定词和情感词典的逐词对比进行获取。

对于微博的情感分析研究,情感词典的完备性和情感特征提取准确性是正相关的,情感特征提取的质量会直接对实验结果造成影响。国外的情感分析取得了很多成果,和国外研究进展相比,我国情感分析起步较晚,加上中西方表达方式存在的巨大差异,国外研究学者的成果并不能直接套用,因此需要针对中文来进行定向研究。虽然近些年研究人员在情感词典的构造上取得了一些成果,但并没有一部完备性高且适用于各个领域的情感词典适用于极性分析,因此结合微博语料的文本特点,需要构建微博情感词典来进行文本情感极性研究。

基础情感词典适用于多领域。根据国内的情感词典取得的研究成果,在知网HowNet情感词典为基础上,将常用情感词典进行整合去重、手工过滤歧义词等处理,得到一个相对完备且较通用的情感词典,然后将情感词典中的情感词按照极性分别设为1和-1,作为本文研究的基础情感词典,如表4-1所示。

表4-1基础情感词典的组成

Tab.4-1CompositionofBasicSentimentDictionary

序号

词典名称

正向

负向

1

知网HowNet词典

4566

4370

2

NTUSD词典

2810

8276

3

大连理工词典库

186

10704

4

中文褒贬义词典

5567

4469

5

褒义词词典

5076

0

6

贬义词词典

0

3495

7

学生褒贬义词典

728

942

8

本文词典

4889

6255

1.3构建修饰词词典

1.3.1否定词词典

否定词本身没有情感倾向,但如果文本中存在否定词,情感倾向就不能仅仅依靠基础情感词典,因此本文在情感基础词典的基础上引入了否定词词典。依据否定词一般左邻情感词的特性,本文只考虑否定词对紧跟的首个情感词的影响。情感词的极性经过否定词的修饰后可能会发生改变,不仅如此,还需要考虑否定词的存在的数目,如果为奇数,则极性反转;如果为偶数,不考虑极性变化,则计算的情感权值与情感词典中匹配到的词语情感极性相同,具体计算公式如式(4-1)。

(4-1)

其中,为否定词的个数。

本文整理出否定词词典并赋予权值,示例如表4-2所示。

表4-2否定词词典示例

Tab.4-2NegativeDictionaryExample

否定词

权值

个数

不、没、无、非、莫、弗、毋、勿、未、否、别、

無、休、不曾、未必、没有、不要、难以、未曾

-1

19

1.3.2程度副词词典

在文本情感分析中,程度副词本身没有情感倾向,考虑到实际微博文本情感的计算过程中,情感词不仅有极性判别的要求,还需要考虑到话题情感强度。文本的情感词经过程度副词的修饰后

您可能关注的文档

文档评论(0)

02127123006 + 关注
实名认证
内容提供者

关注有哪些信誉好的足球投注网站

1亿VIP精品文档

相关文档