- 1、本文档共27页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
构建基于短语的情感词典-中国计算机学会
话题型微博语言特点及其情感分析策略研究 中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心 侯敏 滕永林 陈毓麒 李雪燕 郑双美 周红照 侯明午 论文框架 1.简介 2.话题型微博语言特点 3.话题型微博情感分析采取的策略 4.实验和分析 5.启示和思考 论文框架 1.简介 2.话题型微博语言特点 3.话题型微博情感分析采取的策略 4.实验和分析 5.启示和思考 简介 话题型微博语言特点 话题型微博情感分析采取的策略 实验和分析 启示和思考 1.简介 本文在深入分析了话题型微博的语言特点的基础上,提出了基于短语情感词典及语义规则的观点句识别及评价对象提取的策略。实验和评测结果证明,这些策略和方法取得了较好的效果。 简介 话题型微博语言特点 话题型微博情感分析采取的策略 实验和分析 启示和思考 2.话题型微博语言特点 2.1 句子简短,单句多 微博有字数限制,因而往往短小。话题型微博又因为有一个明确的话题,话题型微博中句子相对简短,单句居多。 文体形式 文本数 汉字数 句子数 平均句长(字) 语言舆情评论文 400 356511 9366 38.06 话题型微博 20 68726 3416 20.11 2.话题型微博语言特点 2.2 观点负面倾向多 话题型微博的形成是基于一定的社会话题和社会事件,而当今社会引起关注的话题负面性较多,这就使得话题型微博在表达观点时,以否定倾向居多。 文体形式 句子数 观点句数 负面倾向句子数 负面倾向句比例(%) 语言舆情评论文 9366 6190 3083 49.81 话题型微博 3416 2207 1766 80.02 2.话题型微博语言特点 2.3 表达情感强烈,理性评价淡化 网络环境的特点使得用户不愿也不易使用逻辑性强的理性话语表达观点,因而理性评价淡化,脏话、粗话等表现力强的不雅语汇大量出现,这也成为话题型微博观点句在表达情感和态度时一种较广泛的表达方式。 2.话题型微博语言特点 2.4 口语色彩浓重,情感因子颗粒度大 微博具有浓重的口语色彩,体现句子观点的情感因子颗粒度加大,往往不再是词,而是短语。 (1)#90后暴打老人#什么玩意了。 (2)#官员财产公示#有个鬼用,公示出来的也要有人信吖? 2.话题型微博语言特点 2.5 观点表达的隐晦、非直接性 在话题型微博中,除了用一些很“给力”的词语明确表达观点外,人们还会采用一种隐晦的、非直接的方式,以言外之意表达观点。 (1)#食用油涨价#我可以说脏话吗? (2)#三亚春节宰客#当地的政府部门这么做的用意是什么?掩耳盗铃?越抹越黑?还是让游客永远不去三亚?应该去测测智商了! 2.话题型微博语言特点 2.6 评价对象省略 微博用户往往可以直接对整个话题或话题的某一部分进行评价和表达态度,所以,话题型微博的评价对象常在文本中省略。 (1)#菲军舰恶意撞击#抗议! (2)#菲军舰恶意撞击#真可恶 (3)#菲军舰恶意撞击#…欺人太甚 (4)#菲军舰恶意撞击#可悲啊…… 2.话题型微博语言特点 2.7 语言不够规范 含有大量非规范性的语言文字以及其它噪音,也是话题型微博语言的一个特点。 (1)#疯狂的大葱#找点空闲,找点时间!带着钱包常去/1T8Gpq淘宝小店去看看! (2)#假和尚搂女子#真TM不要Face。 简介 话题型微博语言特点 话题型微博情感分析采取的策略 实验和分析 启示和思考 3. 话题型微博情感分析采取的策略 整体思路: 情感分析,目前主要有两种基本方法。一种是基于语义的词典及规则方法,一种是基于标注语料的机器学习方法。 我们主要采取的是基于语义的词典加规则的方法,针对话题型微博,我们主要采用了加大情感因子颗粒度,构建基于短语的情感词典、通过短语规则确定句子极性、重点研究否定形式、建立基于话题的OBJ表单等策略。 3. 话题型微博情感分析采取的策略 3.1 构建基于短语的情感词典 话题型微博情感表达颗粒度大,因而仅仅依靠传统的情感词典,依靠句子中是否有情感词来进行观点句的判断,会造成很多错判,因此我们构建了一部基于短语的情感词典。 短语情感词典将明确表达观点的情感短语甚至短句都收录其中。 不得好死、不咋的、扯犊子、就好了、瞎折腾个屁、不是找抽吗、什么玩意儿 一些明确表达观点的口语词、网络用语和脏话也必须收录到情感词典中 得瑟、傻逼、狗逼、操蛋、犯贱、傻B、欠揍、找死 3. 话题型微博情感分析采取的策略 3.2 通过短语规则确定观点句及其极性 我们建立了短语规则库,试图解决情感短语词典不能处理的那部分句子是否观点句以及句子的极性问题,主要是长距离搭配形成的
文档评论(0)