网站大量收购独家精品文档,联系QQ:2885784924

《基于互联网+大数据的舆情分析》课件_第3章.pptx

《基于互联网+大数据的舆情分析》课件_第3章.pptx

  1. 1、本文档共90页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第3章互联网+用户情感的识别与计算;

主要构建流程如下:

(1)收集现有情感词表形成目标词汇库;

(2)以“和颐酒店女生遇袭”事件的相关微博数据作为待分析语料库,对情感词汇进行扩展,形成扩展词库;

(3)将目标词库和扩展词库中的情感词进行汇总,对所有情感词的词性、词义、强度、极性和情感类型等进行标注和描述;

(4)对情感特征进行分类,最终形成情感分类词表。

情感分类词表构建的基本流程图如图3-1所示。;

;

3.1基于词典的情感分类词表构建;

2.台湾大学NTUSD

台湾大学NTUSD中包含了2810个正面情感词,8274个负面情感词。

3.大连理工大学中文情感词汇本体库

大连理工大学信息检索研究室中文情感词汇本体库共包含了27466个情感词,并对中文词汇或短语进行了不同角度的描述,如词语的词性种类、情感强度、情感极性和情感类别等。

4.清华大学中文褒贬义词典

清华大学中文褒贬义词典由清华大学自然语言处理与社会人文计算实验室发布,共包含褒义词5567个,贬义词4469个。;

本节对知网HowNet、台湾大学NTUSD、大连理工大学中文情感词汇本体库以及清华大学中文褒贬义词典这四个来源词典(各词典情感词数量如表3-1所示)进行合并去重。;

3.1.2基于HowNet的义项标注

HowNet知识库是由中国科学院计算机语言信息工程研究中心董振东教授编制的。HowNet知识库编制的思想就是试图用一系列“义原”来描述每一个概念。HowNet中的词由不同的概念或义项表示,每一个义项又由一个或多个义原组成,义原是表示知识的最小单位。;

Yan和Bracewell等人通过整理HowNet用于描述情感的义原,通过义原表达的语义特征对这些义原的上下级关系进行表示,通过情感义原提取HowNet中的情感词,通过义原的上下级关系来定义情感词的等级关系,形成情感词本体。可见,HowNet对词的标注方式不但可以很好地定义词的情感信息,还可以通过义原对词汇的情感进行等级划分。本书将按照HowNet对词的定义方式???用义原对已经形成的14404个目标词进行描述。如表3-2所示为目标词标注示例,其中高兴、讨厌、粗心、粗鲁和羞耻为所要标注的目标词。;;

3.1.3目标词分类方法

本书在第2章已对现有情感词典构建的研究进行了介绍,情感词典的构建主要有基于现有词典和基于语料库两种方法。这两种方法均需要首先根据人类知识构建分类框架,然后为每一个分类建立一系列标准词汇,最后通过语义相似度计算方法计算目标词与标准词之间的相似度,将目标词归属于语义相似度总和高的类。;

总体来说,基于HowNet或PMI的相似度计算均存在各自的缺陷,PMI方法需要依托完善的语料库,基于HowNet等词典的相似度计算依托于词典的准确性和算法的完备性,并且目前两种方法均无法实现自动准确的情感分类和极性判断。;

3.1.4情绪分类词表构建

1.情绪义原分类体系

目前心理学中对情绪分类的研究很多,形成了多种情绪维度理论。依据情绪是源自或是激发了自我关注还是他人关注,情绪可以被分为自我指向的情绪和他人指向情绪两类。自我指向情绪,如高兴、骄傲、生气、挫败都涉及个体内部的体验(包括动机、需求和能力等);相对应的,平和、同情、悲伤、愧疚等他人指向的情绪,涉及个体与外界他人的交互性,在这类情绪体验中,个体注重他人的感受,内在的自我体验在与外在他人交互的过程中才会获得平衡。;

在情绪类型的划分上,存在多种分类方式。传统的情绪维度理论认为人类的情绪可以通过几个维度进行区分,目前较为常用的方法是“效价—唤醒度”的划分方法:依据效价将情绪分为正、负两极,位于正极的为积极情绪,通常带来愉悦感受,位于负极的为消极情绪,通常产生不愉悦感受;同时依据唤醒度区分情绪的强弱,唤醒度越大,所产生的情绪就越强烈。

冯特提出的三维理论认为:情绪是由三个维度组成的,即愉快——不愉快;激动——平静;紧张——松弛。每一种具体情绪分布在三个维度的两极之间不同的位置上。他的这种看法为情绪的维度理论奠定了基础。;

通过上述心理学中对情绪的研究和分类,可以建立情绪维度的基本认知,然后将统计出的2357个HowNet义原中的情绪义原进行逐一挑选归类。最终根据情绪义原的归类将情绪分为12个大类(一级类)和32个小类(二级类),类别划分及各类别所包含的主要情绪义原如表

文档评论(0)

酱酱 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档