中文微博情感资料.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于情感词典的中文微博情感倾向分析研究 导师:何婷婷 华中师范大学 NLP实验室 内容提要 情感分析的研究背景 情感分析的研究现状 微博情感分析的相关概述和理论 微博情感分析的研究内容和方法 微博情感倾向分析具体实践 1.情感分析的研究背景 在Web2.0 时代,最具有影响力的产品无疑是微博,它实现了把信息发布与社会网络紧密结合在一起。自2006 年问世至今,微博作为一个新兴的科技信息产物,目前在全球已成为一个能高度互动的信息转播平台。 在国内,短短几年时间里,微博从互联网的新秀跃升为互联网的基础应用之一,以微变革的力量,打开了一个大时代之门。 庞大的微博信息流揽括了众多话题,也许这些信息看似琐碎,而且非常不 规则,可事实上蕴藏着巨大的潜在价值。微博平台上的各种互动,往往与用户的心理有关,用户一旦在微博中发言,便有了立场和倾向,这就可以对其做情感分析。 2.情感分析的研究现状 通过目前收集到的国内外刊物及会议论文来看,关于文本情感分析方法的文献大致分为两类: (1)使用情感词典及与其关联信息分析文本情感 (2)使用机器学习方法分析文本情感 2.1使用情感词典及与其关联信息分析文本情感 使用情感词典及与其关联信息来分析文本情感,其优点是应用在词语特征级,句子级,粒度细,分析精准。但受到自然语言处理技术及相关抽取技术的限制,该方法容易丢失数据集中隐藏着的重要模式,使得未来研究工作中还有很大的提高空间。 徐琳宏、林鸿飞等从句子的词汇和结构作考虑,提取影响语句情感的9个语义特征,采用手工与自动获取相结合的方法,构建情感词汇本体库,对情感分析研究做了初步的尝试。 李钝、曹付元等从语言学的角度出发,采纳“情感倾向定义”权重优先的计算方式得到短语中词语语义倾向度,并分析词语的组合方式特点,提出中心词概念对词语的倾向性做计算,从而识别出短语的倾向性及其强度。 闻彬,何婷婷等提出一种基于语义理解的文本情感分类方法,通过在情感词识别中引入情感义原,赋予概念情感语义,对概念的情感相似度重新定义,得到词语情感语义值。 2.2使用机器学习方法分析文本情感 这类方法常用的机器学习模型有:中心向量分类法,朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy),K最近邻分类和支持向量机(SVM)。 国外有用机器学习的方法对电影评论进行情感极性分类的实验,分为正向情感和负向情感,分别采用了朴素贝叶斯、最大熵、支持向量机三种分类方法做实验,并将之与手工分类结果做比较,发现支持向量机方法在这种机器学习方法中效果最好,分类精确度达到80%。由此,可见机器学习方法在情感分析中展示出了一定的优势。 3.微博情感分析的相关概述和理论 微博的相关概述 文本预处理技术 特征选择算法 3.1 微博的相关概述 3.1.1 微博的定义和发展 微博是微型博客的简称,英文名称为MicroBlog。它是一个基于用户关系的信息传播、分享以及获取的平台,用户可以通过多种渠道(如WEB,WAP 以及各种客户端组件,即时通讯等)即时更新信息,每次更新内容将限制在一定数目内(中文微博通常为140 字左右),它具有便捷性、原创性、互动性、传播速度快及内容碎片化等特点。 2009 年8 月,新浪率先推出了“新浪微博”内测版,随后国内几大综合门户网站网易、搜狐、腾讯等相继推出。一时间微博呈现出井喷式发展,中国也真正进入了微博时代。 3.1.2 微博文本中的符号 1.网页链接:通常在用户分享后的文本末尾会跟随出现一个以“http”开头的地址,提供了分享视频、网页、图片等功能,这类文本符号在本文的情感倾向分析中是没有用处的,应该在文本预处理阶段过滤掉。 2.标签符号:通常微博应用最广泛的标签符号有四类。下面将作分别介绍: @:代表at,意思是“对某人说”或者“需要引起某人的注意”。 #:两个#框起来的文字,可以理解为“话题”。 //:一般是由微博系统自动添加的,出现在再一次转发已转发并带有评论的微 博时,主要起分隔针对同一微博的多人多次评论的作用。 V:代表该用户是通过微博官方认证的,是特殊身份的象征。 3.表情符号。 很多微博用户喜欢使用表情符号来表达自己当时的心情。例如:表情符号 经抓取后转变为了[哈哈],表情符号在本文情感倾向分析中起着重要作用。 3.1.3 微博情感分析研究的困难 1.微博文本的特点 中文微博的文本内容都限制为140个字,,用户可以发布更有深度的内容(评论、新闻、分析等),微博用语多为非书面语言,口语化严重,大多不规范、语句结构杂乱,这在自然语言理解上给情感分析带来难度。

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档