基于主动学习的情感分析方法研究.pdf

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
重庆大学硕士学位论文 中文摘要 摘 要 随着互联网的迅速发展和普及,网络上涌现出了大量表达观点和情感的用户 评论文本。仅靠人工的方法处理和分析这些文本包含的情感信息费时费力。因此, 迫切需要相关的技术快速进行自动处理和分析,文本情感分析由此产生并且快速 发展,在商业决策、观点有哪些信誉好的足球投注网站、信息预测和情绪管理等领域得到广泛应用。 本文主要研究情感分析中的中文情感分类子任务,旨在自动地判断文本情感 极性。基于机器学习的方法是目前情感分类的主流方法之一,该方法需要使用大 量标注好的语料来训练分类模型,然而,人工标注大量数据代价高昂且容易出错。 因此,在减少标注语料的同时,如何保证分类模型的性能极具研究价值。并且, 粗粒度情感分类任务无法获取评论文本包含的不同主题及其对应的情感倾向。针 对上述问题,本文主要研究工作及创新点如下: ① 针对获取大量标注语料存在标注代价高昂且易出错问题,本文在基于机器 学习的情感分类基础上,引入主动学习,结合基于委员会查询的主动学习方法, 提出基于委员会查询的情感分析方法 (Sentiment Analysis based on Query by Committee,SAQBC )。通过样本选择策略选择部分高分类信息的未标注样本进行 标注,并结合机器学习分类模型对这些已标注样本进行迭代训练来达到降低样本 标注量的目的。 ② 针对粗粒度情感分类任务无法获取评论文本包含的不同主题及其对应的 情感倾向问题,本文在SAQBC 方法的基础上,引入LDA 模型,提出基于主题模 型和主动学习的情感分析方法(Sentiment Analysis based on Topic Model and Active Learning ,SATMAL)。首先通过LDA 模型获取评论文本中隐藏的主题信息,然 后通过SAQBC 对其进行情感极性预测,最终获得不同主题及其对应情感倾向。 ③ 本文在酒店评论数据集上进行实验来验证SAQBC 和SATMAL 方法的有效 性,将SAQBC 与其它常用基于机器学习的情感分类模型进行对比,实验结果表明, 在数据集规模减少一半以上的情况下,SAQBC 性能依然保持最佳,准确率比最好 的对比方法还要高 1.45%。同时,实验验证SATMAL 方法在实际应用中可以挖掘 出评论文本潜在的主题信息及对应的情感倾向。 关键词:情感分析;机器学习;主动学习;委员会查询;主题模型 I 重庆大学硕士学位论文 英文摘要 Abstract With the rapid development of the Internet, a large number of user comment texts expressing opinions and emotions have emerged on the Internet. It is time-consuming and laborious to rely on manual methods to process and analyze the emotional information contained in these texts. Therefore, there is an urgent need for relevant technologies to quickly and automatically process and analyze comment texts. Text sentiment analysis is generated and developed rapidly and it is widely used in the fields of business decision mak

您可能关注的文档

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档