- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文短句之情绪分类袁晓艳年月日关键字侦测法关键字侦测法最简单也是最符合直觉的文字情绪侦测方法情绪侦测的判断仅透过事先选定的相关关键字是否出现在给定文件中关键字侦测法中可以增加分类准确性的关键处为前处理的部分其中前处理的方法可以分为剖析器萃取关键字和建立情绪关键字辞典两种方法第一种方法透过剖析器萃取出情绪关键字目前已经具有成熟的剖析器软件可以从给定的训练预料中利用句子剖析的方法萃取出具有代表性的关键字第二种方法建立情绪关键字辞典情绪关键字辞典除了包含情绪字汇外还必须描述字汇之间的关性和所属的情绪类
中文短句之情绪分类
袁晓艳
2012年12月09 日
关键字侦测法
• 关键字侦测法:最简单也是最符合直觉的文字情绪侦测方法,情绪侦测的
判断仅透过事先选定的相关关键字是否出现在给定文件中.
• 关键字侦测法中可以增加分类准确性的关键处为前处理的部分。其中前
处理的方法可以分为剖析器萃取关键字和建立情绪关键字辞典两种方法
。
• 第一种方法,透过剖析器萃取出情绪关键字, 目前已经具有成熟的剖析器
软件,可以从给定的训练预料中利用句子剖析的方法萃取出具有代表性
的关键字,第二种方法,建立情绪关键字辞典,情绪关键字辞典除了包
含情绪字汇外,还必须描述字汇之间的关聯性和所属的情绪类别,为了
清楚描述语意相似字汇和语意相反字汇的关聯性和分類关系,情绪关键
字辞典通常以同义词辞典(thesaurus)或者本体论表示法(ontology
representation)的形式存在
混合方法
• 将情绪侦测结合已侦测的关键字、学习演算法得到的样式
(pattern)和其他补充资讯的调(refinement)一起判断,使
得系统的分类效果明显的改善
表情符号的处理
• Yang等学者[20]提出的表情符
号四象限研究方法,将表情符
号映射至正面(positive)、负
面(negative)、激动
(energetic)和安静(silent)
四个坐标轴所组成的四个象限
学习侦测法
• 有别于关键字情绪侦测方法透过主观的人工方法建立关键字辞典或
透过半自动方法剖析出可能的关键字候选名单,学习侦测法透过客观
的统计式机器学习演算法训練出的学习样式(learned pattern)判断
给定的输入文字所属的情绪类别。过去文献中使用支持向量机、条
件随机场统计式机器学习演算法帮助情绪类别的分类问题。
自行建构词汇辞典搭配SVM
• 前处理- CKIP断词
– 以短句为单位的Plurk语料输入中央研究院(CKIP)小组所开发的中
文断词系统进行断词.
– 根据语料中的表情符号和前节中所讨論的情绪類别方法,我们可
以在断词前就知道语料中的个别短句分别属於哪一个情绪類别(
正面情绪或负面情绪),再将断词完的词汇与词汇出现次數依据
所属的表情符号归類为正面情绪词汇表和负面情绪词汇表
– 接著,将上述兩个词汇表当作特徵选择的候选词汇集,希望藉由特
徵选择的方法降低分類问题中可能产生的curse of dimension 的问
题并提高分類准确性。
自行建构词汇辞典搭配SVM
• 特征选择
– 为了缩减候选词汇的数量并找出和情绪类别高度相关的词汇集
– point-wise mutual information
– Pearson Chi-Square correlation
PMI
• 是一种衡量两样本之间相依程度关系的方法
• PMI处理词汇共同出现关系(word collocation)和词汇歧义解析(word
sense disambiguation)
• 其中w是前段所述的词汇集中的某一词汇且是一特徵
• e为情绪的类别标签,c(e,w)为情绪类别e和词汇w共同共同出现在预
料中的次数
利用同义词降低特征维数
• 哈尔滨工业大学整理的同义词词林内部分類共有四层,采阶层式分类,
最高层第一层为越抽象的類别,最低层第四层为越抽象的细类别,越底
层的分类种类越多,越高层则越少。
文档评论(0)