基于机器学习的文本倾向性分析特征选择研究.docx

基于机器学习的文本倾向性分析特征选择研究.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于机器学习的文本倾向性分析特征选择研究

?

?

唐琳

摘要:本文围绕文本倾向性分析的基本流程进行论述,主要研究了以文本情感分析技术为主的倾向性分析,以主观性文本及客观性文本识别为前提,从特征选择算法和特征加权算法方面对现有文本倾向性进行分析,介绍了算法的推导公式及模型训练代码,重点涵盖了基于机器学习的文本倾向性分析方法,对其算法复杂性、算法效率和适用范围给出了具体的概括和总结.

关键词:机器学习;文本倾向性;特征选择;特征加权

:TP391?:A?:1673-260X(2020)01-0036-03

作者在之前发表的《微信订阅号文本采集及预处理关键技术研究》一文中,详细介绍了微信的使用情况,其订阅号中的文章数量更是浩如烟海,如果仅仅凭借人工途径来获取文章作者的观点是十分不切实际的事情,因此文本倾向性分析的提出,作为文本智能化理解的一种高效手段和方法,有效解决了文本意见挖掘这一难题.文本倾向性分析,正是在主题挖掘的基础上,对文章中作者所表达出的观点、意见、情感甚至态度进行提取,通过分析得知当前的舆论导向,从而作为舆情处理的可靠依据.

文本经过前期分词、去停用词等预处理后,正式进入了倾向性分析环节,作为自然语言处理领域的研究热点,国内外许多学者都对文本倾向性分析进行了系统深入地研究和探索,而文本倾向性分析的同义词或者别称又是五花八门,令人眼花缭乱,比如:意见挖掘、情感分析、舆情分析等等.虽然名称很多,但是其技术的发展主要经历了三个过程,分别是:基于简单统计的文本倾向性分析方法、基于机器学习的文本倾向性分析方法和基于相关性分析的文本倾向性分析方法.基于简单统计的倾向分析由于实现简单、有一定的准确度,在倾向性研究初期称霸一时;基于相关性的文本倾向分析,首先要求算法能够实现特征判断,遴选出有倾向判断的特征级别,特征倾向分析与句子倾向分析和文章倾向分析相比,难度更大,但实用性更高,同时它对自然语言处理技术水平依赖较大,现有方法主要通过信息结构化抽取和语义分析标注等来实现.[1]

文本倾向性分析同时涉及自然语言处理、信息检索和抽取、机器学习、统计学、人工智能等多个领域,所涉学科比较广泛,我们课题组结合自身专业,主要从机器学习和人工智能角度入手,对文本进行倾向性分析.基于机器学习的文本倾向性分析方法相较简单统计法和相关性分析法而言,既弥补了简单统计的粗粒度分类的不够精确度的弊端,又比相关性分析在技术上容易实现,因此我们将基于机器学习的文本倾向性分析方法作为本文中进行文本倾向性分析的首选方法,这种方法可靠、可行,既可以结合机器学习、人工智能的手段和方法,又可以运用统计学、常微分方程等工具对齐进行推导演算,大大提高了分析结果的准确性,基于机器学习的文本倾向性分析流程如图1所示.

1主观性文本与客观性文本的识别技术

网上发表的文章,一般可分为两大类,一类是客观性文本,主要是对人物事件的客观性叙述或描述,属于写实主义,不带有作者的感情色彩,比如新闻、纪实、记录等;另一类则是主观性文本,所谓主观性文本,是带有作者感情色彩来对人物事件的描写或叙述的文章,因为作者主观性差异,所表述的观点、想法乃至世界观都极具个人特性,从而导致文章带有倾向性情感,而通过网络的传播,这种情感倾向又被放大,甚至形成了新的网络舆情.因此,主观性文本是文本倾向性分析的主要对象.而如何区分主观性文本和客观性文本,则是倾向性分析所有做的第一步工作,即主客观文本分类.这种主观性文本的有效识别,可以有效缩小分析范围,提高文本分析的效率和精度,压缩了网络舆情分析的成本.

目前,最为简单的方式是通过提取形容词进行识别来判断文本是否主观性,即将文本中的句子分为主观句和客观句,含有主观句的文本,则是主观性文本.[2]

我们在这个理论的基础上,建立了情感词库,利用SimFinder工具来计算文本中句子的相似度,结合词性标注[3]構造情感训练集,按照Yu等人的方法[4]构建基于贝叶斯分类算法的多分类器,通过以上方法的实施有效避免了构造训练集时的不确定性,提高了训练集的构造质量.这里所用的分类器,主要采用了朴素贝叶斯分类算法来设计分类器,极大地增强了主观性句子提取的抗干扰能力,提高了文本分类的准确性.

对于客观性文本来说,我们不需要进行后续的文本倾向性分析流程,可以过滤掉,筛选出来,接下来我们将主要精力都放在主观性文本的倾向性分析上.

2特征选择技术

在前期文本经过分词、去停用词等预处理之后,在主客观文本识别阶段,形成了众多的特征词,这些特征词数量非常多,非常容易造成选词维度灾难,就需要进行特征选择分析.特征选择就是将特征词集合在去除无关特征、多余特征等噪声特征后,细分成特征子集,大大降低特征分析及训练模型所需要的时间,提高了特征训练模型的精确度.

特征选择阶段去除噪声特征,

您可能关注的文档

文档评论(0)

159****4221 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档