文本情感分析论文总结 [2].docxVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本情感分析赵妍妍,秦兵,刘挺 - 软件学报, 2010 - jos.org.cn按粒度,情感分析可分为词语级、短语级、句子级、篇章级、多篇章级;按文本类别,可分为基于新闻评论和基于产品的情感分析。情感分析的研究任务:情感信息的抽取、分类以及检索与归纳。情感信息抽取(评价词语、评价对象、观点持有者)评价词语的抽取:基于语料库的抽取;基于词典的抽取;基于图的方法。评价对象的抽取:基于规则/模板的方法(词序列、词性、句法规则、关联规则挖掘);评价对象最为产品属性,考察评价对象与领域指示词的关联度来获取;多粒度的话题模型方法。观点持有者抽取:命名实体识别技术(人名或机构名)、语义角色标注;分类任务,看做序列标注问题,使用CRF融合特征抽取;名词短语作为候选,使用ME模型计算。组合评价单元的抽取:主观表达式:Wiebe的主观表达式库(抽取n元词语/词组作为候选,对比训练预料判断)评价短语抽取(程度副词-评价词语):情感词典的方法;依存句法解构(ADV,ATT,DE)。评价搭配抽取(评价词语-评价对象):基于模板的方法(8个共现模板、句法关系模板)。情感信息分类主客观信息分类:文本是否含情感知识方法;组合评价单元判断;情感模板识别;基于分类器和分类特征的二元分类任务(词语特征,标点、人称代词、数字特征,基于图);主观信息情感分类(句子级、篇章级):基于情感知识、基于特征分类的方法(n-gram词语特征和词性特征、位置特征、评价词特征)。情感信息的检索与归纳情感信息检索情感信息归纳基于产品属性的情感文摘:识别评论信息中的产品属性,抽取描述产品属性的情感句,判断其倾向性。基于情感标签的情感文摘:标签可定义为评价搭配形式,建立标签库,相似度聚类的方法聚类得到相似的情感标签,每一类视为潜在的话题(即产品属性)。基于新闻评论的文摘情感分析的评测与资源情感分析的评测:TREC,NTCIR的MOAT(新闻观点检测,情感问答,跨语言情感分析),国内的COAE。情感分析的语料:康奈尔大学的影评数据集,UIC的Hu和Liu的产品领域的评论语料,Wiebe的MPQA新闻评论深度标注语料,MIT的多角度餐馆评论语料,中科院的中文酒店评论语料。词典资源:GI(general inquirer)评价词词典,NTU评价词词典(繁体中文),主观词词典(英文),HowNet评价词词典(简体中文、英文)问题:情感信息抽取忽略词语所在语境的影响;评价对象的情感分类,而非句子级或篇章级;基于情感标签的情感文摘的深入研究;基于层次结构的多策略中文微博情感分析和特征抽取谢丽星,周明,孙茂松 - 中文信息学报, 2012 - nlp.csai.tsinghua.edu.cn三种情感分析方法的研究:表情符号的规则方法、情感词典的规则方法、基于SVM的层次结构的多策略方法。主题无关的情感分析:不关心情感极性所描述的对象,有基于词典的方法、有监督的机器学习和无监督的方法。主题相关的情感分析:基于规则的方法;基于特征(属性)的方法。主客观分类特征、极性分类特征:链接、表情、情感词典、情感短语、上下文微博消息句子构成特征:首句、尾句情感极性,正负中情感句数主题相关的句子筛选:包含主题词的句子、零指代情感、主题词相邻的一定范围内。本文中主题无关的最佳组合方法:单句用一步三分类,特征为表情+词典+短语+上下文,整体为句子组成SVM,特征为首句尾句极性+三种情感极性句子数。主题相关的特征(本文提供主题词来获取数据):测试三种主题相关句子筛选方法。本文后续工作:构建网络用语词典;深入研究主题相关的特征;构建图模型。Cross-Lingual Mixture Model for Sentiment ClassificationX Meng, F Wei, X Liu, M Zhou, G Xu… - Proceedings of the 50th …, 2012 - dl.acm.org问题:英语的标记数据比其他语言多,很多现存的方法都是直接用机器翻译将源语言翻译为目标语言,以获取标记数据,但是翻译后的词典覆盖率有限,且翻译本身的准确性限制。解决:提出跨语言混合模型,利用平行语料库,可以提高词典覆盖率,通过在飞标注的平行语料中学习情感词,同时在源语言与目标语言间传递极性标签信息。思路:把平行语料库中的未标注数据的极性当做隐变量,而语料库中的可观察的词语当做是基于隐变量的词语生成分布来生成的。给定一个平行语料库,通过最大化生成这个语料库的似然值来fit CLMM模型,通过最大化似然值,CLMM可以估计没在标记数据中出现但是在平行语料中出现的词语的产生概率,进而扩展词典。另外,CLMM还能利用源语言和目标语言中的词语来判断平行语料中句子的极性。Cross-Domain Co-Extraction of S

文档评论(0)

shaoye348 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档