微博情感倾向算法改进和实现.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
微博情感倾向算法改进和实现

微博情感倾向算法改进和实现   【摘要】为了提升对微博数据分析的准确度,首先对微博的发展现状及文本特点进行分析;其次提出全新的情感倾向词典构建方案,在改进现有词典的同时加入三个全新类型的词典,并以此作为词法分析的基础;随后建立可解析词与词、子句与子句之间的逻辑关系的语法库,从而实现对微博文本的语法分析;最后,应用本文提出的改进算法,设计、实现算法验证程序并进行测试。结果表明,改进算法在处理微博文本数据时正确率为80.74%,较原算法提高了22.72%。 【关键词】情感倾向分析 微博 情感词典 算法 微博情感倾向算法的改进与实现 自2006年Twitter在国外兴起开始,微博以其方便、快捷的特点迅速风靡全球。据统计,Twitter在2012年平均每天都有1亿7 500万Tweet被发布;在国内,新浪在率先推出微博服务后,已经聚集了4.24亿微博用户,平均每天活跃用户多达4 230万[1]。同时,腾讯微博也借助于其在即时通讯领域的优势,用户数量很快就突破了2亿,处于强势追赶阶段。各种形式的微博服务已经成为网民发布信息、交换对于事件的看法、观点与态度的重要途径。 微博用户数量的快速增长,使得网络上出现了海量的、以文本形式存在的数据信息。这些信息包含了用户对于特定事物的心情、看法、评价等。由于微博特有的文本长度限制,单条微博所能提供的信息相对有限,因此需要通过增加数据量来弥补这一缺陷。面对大量的文本数据信息,采用人工手段进行倾向分析往往会力不从心,因此,需要一种可以快速准确地对大规模文本进行倾向标注的方法,微博情感倾向分析研究就是在这种背景下发展起来的。 背景及相关研究 微博情感倾向性分析就是对说话人的态度(或称观点、情感)进行分析,也就是对文本中的主观性信息进行分析[2]。早期的微博情感倾向分析主要是进行词语语义的倾向计算[3]和文本情感分类[4-6]等工作。随着研究的不断深入,分析的重点逐渐转移到了更加精细的粒度上,如产品属性挖掘[7]、情感摘要[8]、情感分类器等[9]。 现有的情感倾向分析大致可以分成4个级别: 词语级别、短语级别、语句级别和篇章级别[10]。词语级别的分析主要是基于词典的语义相似度或层次结构来计算单词的情感倾向[11]。短语级别的情感倾向分析是在词语级别之上引入了程度词、否定词等分析内容,从而增加了判断情感倾向正负强弱的准确性。短语级别的情感倾向分析可以采用语料库[12-13]和词典[14-15]两种方法。句子级别的情感倾向分析主要包括主客观语句的区分、主观语句的倾向性计算以及语句中细粒度内容的提取[16-18]。篇章级别的情感倾向分析就是从一个整体的角度对文本进行情感倾向性分析[19-20]。在这4个级别上已有了一定数量的研究成果。 2009年,Yang Shen[14]提出了MBEWC微博情感倾向计算器。 该方法在算法设计时考虑了目标数据的特殊性,并进行了一些针对微博文本分析的改进。但在进行数据分析时,仍然存在以下缺陷:①沿用了由情感词词典、程度词词典和否定词词典三个词典组成的短语情感倾向分析体系,没有添加其他针对微博数据特征的词典系统;②计算子句倾向时,采用的是直接统计的方式,没有将词汇之间的修饰关系考虑在内;③分析子句之间关系时,虽然考虑到了子句先后顺序对子句情感倾向权重的影响,但是却没有进一步将逻辑关系考虑在内,导致该算法在分析转折句、感叹句等特殊句式时正确率下降。 本文在Yang Shen等所提出的MBEWC微博情感倾向计算器的基础上,在清华大学人机交互与媒体集成研究所的支持下,提出了针对微博文本信息的特殊性的改进算法。本算法以微博文本中的情感倾向元素以及相关的语法特征作为情感倾向证据,在原有的以情感词、程度词、否定词为核心的分析系统基础上,针对微博的语言特征及用户使用习惯,添加了表情、语气词以及用于进行主客观判断的部分特殊词,以有效地提升情感倾向分析的准确度。除此之外,本算法还引入了修饰语法和逻辑语法的概念,以确定文本信息中词与词之间、子句与子句之间的逻辑关系。新算法通过子句分割、子句倾向计算、逻辑关系计算、整句倾向汇总等步骤实现。算法验证程序可根据获取的词典、语法库等数据信息,对微博情感倾向进行自动标定。最后进行了网络真实微博信息的相关测试。 情感倾向词典构建与分析 文本情感倾向分析的基础是判断词语的语义倾向[21]。现有的情感倾向词典构建中,比较常见的是情感词词典、否定词词典以及程度词词典。分析时通常以单个词作为目标,而忽略了词与词之间的顺序、修饰关系,导致分析准确率有限。本文在对现有的上述三个词典进行改进的基础上,添加了特殊标识符词典、表情词典以及语气词词典三个新的词典。以这六个不同功能的词典构成一个新的词典系统,对文本数

文档评论(0)

docman126 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档