- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
微博热点话题情感分析的算法设计综述
目录
TOC\o1-2\h\u6315微博热点话题情感分析的算法设计综述 1
157661.1热点话题情感分析算法流程 1
214211.2构建微博基础情感词典 2
72481.3构建修饰词词典 3
54681.3.1否定词词典 3
57071.3.2程度副词词典 3
246951.4语义规则分析 4
101061.1.1词语多元组 4
318841.1.2句型规则 4
284041.1.3句间规则 5
130751.5话题情感计算 5
如何判别文本的情感极性在自然语言处理领域中是一个复杂的研究问题,其中情感词的正负倾向是情感极性很重要的判断依据。传统基于情感词典的方法分析文本时,最常用的方法是将文本中出现的词语和情感词典进行对比,若在情感词典中出现则标注情感词的极性并赋予权值,之后利用文本中情感词的累加计算文本极性。基于情感词典的方法简单快速,但是单一的只考虑情感词而忽略文本语义,不能根据语境进行判断,误差很大,并不能满足如今对微博文本情感分析的准确度要求。
1.1热点话题情感分析算法流程
为了尽可能全面的考虑对微博情感的影响因素,本文对能够影响微博情感的修饰词和句型结构也进行分析。对于情感词,本文将能够改变情感词极性和强度的否定词、程度副词等进行分析,根据修饰词和否定词之间的搭配构建词语多元组。对于微博的句型结构,微博文本可以根据标点符号划分为若干个复句,复句又可以划分为若干个分句,本文分别分析了复句的句型规则和分句的句间规则对微博文本情感的影响,从情感词和语义规则两方面对微博文本的情感极性进行研究,算法设计流程图如4-1所示:
图4-1情感分析算法的流程图
Fig.4-1FlowChartofSentimentAnalysisAlgorithm
1.2构建微博基础情感词典
文本中的情感词是情感分析处理的基础,通常情感词和整条文本的情感极性密切相关,因此需要在文本中提取。在文本分词之后,可以将待定词和情感词典的逐词对比进行获取。
对于微博的情感分析研究,情感词典的完备性和情感特征提取准确性是正相关的,情感特征提取的质量会直接对实验结果造成影响。国外的情感分析取得了很多成果,和国外研究进展相比,我国情感分析起步较晚,加上中西方表达方式存在的巨大差异,国外研究学者的成果并不能直接套用,因此需要针对中文来进行定向研究。虽然近些年研究人员在情感词典的构造上取得了一些成果,但并没有一部完备性高且适用于各个领域的情感词典适用于极性分析,因此结合微博语料的文本特点,需要构建微博情感词典来进行文本情感极性研究。
基础情感词典适用于多领域。根据国内的情感词典取得的研究成果,在知网HowNet情感词典为基础上,将常用情感词典进行整合去重、手工过滤歧义词等处理,得到一个相对完备且较通用的情感词典,然后将情感词典中的情感词按照极性分别设为1和-1,作为本文研究的基础情感词典,如表4-1所示。
表4-1基础情感词典的组成
Tab.4-1CompositionofBasicSentimentDictionary
序号
词典名称
正向
负向
1
知网HowNet词典
4566
4370
2
NTUSD词典
2810
8276
3
大连理工词典库
186
10704
4
中文褒贬义词典
5567
4469
5
褒义词词典
5076
0
6
贬义词词典
0
3495
7
学生褒贬义词典
728
942
8
本文词典
4889
6255
1.3构建修饰词词典
1.3.1否定词词典
否定词本身没有情感倾向,但如果文本中存在否定词,情感倾向就不能仅仅依靠基础情感词典,因此本文在情感基础词典的基础上引入了否定词词典。依据否定词一般左邻情感词的特性,本文只考虑否定词对紧跟的首个情感词的影响。情感词的极性经过否定词的修饰后可能会发生改变,不仅如此,还需要考虑否定词的存在的数目,如果为奇数,则极性反转;如果为偶数,不考虑极性变化,则计算的情感权值与情感词典中匹配到的词语情感极性相同,具体计算公式如式(4-1)。
(4-1)
其中,为否定词的个数。
本文整理出否定词词典并赋予权值,示例如表4-2所示。
表4-2否定词词典示例
Tab.4-2NegativeDictionaryExample
否定词
权值
个数
不、没、无、非、莫、弗、毋、勿、未、否、别、
無、休、不曾、未必、没有、不要、难以、未曾
-1
19
1.3.2程度副词词典
在文本情感分析中,程度副词本身没有情感倾向,考虑到实际微博文本情感的计算过程中,情感词不仅有极性判别的要求,还需要考虑到话题情感强度。文本的情感词经过程度副词的修饰后
您可能关注的文档
- 《某游客中心空调工程设计》17000字.doc
- 《某主干道路线的路面结构设计案例综述》3800字.docx
- 《某主干道路线的平面设计案例综述》1300字.docx
- 《某主干道路线的纵断面设计和横断面设计案例综述》2300字.docx
- 《某住宅楼工程施工组织设计的冬、雨季等特殊季节施工技术措施分析综述》3600字.docx
- 《农产品茶叶营销策略研究的相关概念及理论基础综述》4300字.docx
- 《农产品大米品牌建设研究的国内外文献综述》2700字.docx
- 《农村土地流转纠纷问题与治理对策—以内蒙古Q村为例》19000字.doc
- 《配电网负荷转供优化研究:图卷积神经网络与强化学习的融合》9700字.doc
- 《配电网接线可靠性计算的原理及过程分析综述》4500字.docx
- 《微博舆情发现系统中的数据冗余问题及解决方案》18000字.doc
- 《微创医疗分拆上市与公司价值创造分析案例》10000字.docx
- 《微创医疗分拆心脉医疗的过程案例综述》4700字.docx
- 《维维豆奶液态豆奶公司应收账款的管理研究》6300字.docx
- 《温度对玉米种子萌发及幼苗生理生化指标的影响实证研究》7300字.doc
- 《温州瑞安市不同功能区表层土壤重金属的含量测定实证分析》5200字.docx
- 《温州瑞安市残疾人就业现状和影响因素调研分析报告》8600字.docx
- 《我国机构投资者的发展现状分析综述》2400字.docx
- 《我国破产抵销权存在的问题分析综述》2300字.docx
- 《我国破产抵销权的概述综述》1200字.docx
最近下载
- 小燕子幼儿园音乐课PPT课件.pptx VIP
- 2.3 周而复始的循环(计数循环).pptx VIP
- 参葛补肾胶囊(CXZS2200001)说明书.pdf
- 2021年全国职业院校技能大赛(高职组)餐厅服务赛项比赛物品规格.pdf
- 第7课 实践出真知-【中职专用】2024年中职思想政治《哲学与人生》金牌课件(高教版2023·基础模块).pptx
- 炒股经典的公式通达信缠论指标公式.pdf VIP
- 第七章_金属和半导体的接触.ppt
- 山东省 2021年春季高考机械专业试题 .pdf VIP
- 2025年亳州职业技术学院单招职业倾向性考试题库完美版.docx VIP
- 2024年医院陪护项目计划书营销策略.pptx VIP
文档评论(0)