基于改进K最近邻算法的中文文本分类.docx

基于改进K最近邻算法的中文文本分类.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE 1 - 基于改进K最近邻算法的中文文本分类 基于改良K最近邻算法的中文文本分类 5137〔2021〕01-0096-06 Abstract:Thispaperfocusesonthehighdimensionaltextproblemsencounteredintextclassification.Documentfrequency〔DF〕-chisquarestatisticfeatureextractionmethodisproposedtoreducethefeatureitemsandreducethedimensionoftext.BasedontheKNearestNeighbor〔KNN〕algorithm,inviewoftheproblemthattexttobeclassifiedshouldbecalculatedinsimilaritywithalargenumberoftrainingsetsamples,aKNNalgorithmbasedongroupingcentervectorisproposed.Thecentervectorsofeachgroupwereobtainedbygroupingthesamplesetsinthecategory,soastoimprovetheclassificationperformanceofthealgorithm.Experimentsshowthattheimprovedalgorithmhasimprovedtheprecisionrate,recallrateandF-measurecomparedwiththetraditionalKNNalgorithm,andittakesadvantagesofotherclassificationalgorithms. Keywords:textclassification;KNearestNeighbor〔KNN〕algorithm;featureextraction;similarity 0引言 中文网页分类的主要流程有:网页文本信息猎取、分词处理、特征提取和权重设置、文本向量表示、算法处理及性能评价.目前已经有许多比较成熟的文本分类模型:K最近邻〔KNN〕算法、朴实贝叶斯〔NB〕算法、神经网络〔NN〕算法、决策树〔DT〕算法、支持向量机〔SVM〕等[1].其中,KNN算法较为成熟,数据训练的时间冗杂度要比其他算法的低,异样点不敏感. KNN算法在中文文本分类方面的应用有许多.郑俊飞[2]提出了一种动态设置K值的策略.ZHANG等[3]提出学习相关矩阵重构测试数据点的方案.CHEN等[4]针对传统的词频-逆文档频率〔TF-IDF〕不能完全有效进行文本分类的缺陷,提出词频-逆重力力矩〔TF-IGM〕特征提取方法.WANG等[5]提出一种基于内核方法和属性约减的分阶式KNN算法,以解决分类过程中維数过高以及分类的精确度受到训练样本分布不均影响的问题.周庆平等[6]提出了基于聚类改良的KNN算法,大幅削减时间冗杂度.刘述昌等[7]提出了基于中心向量的多级分类KNN算法,不仅降低了算法冗杂度,还提高了分类速度.邱定等[8]将Rocchio算法和KNN算法结合,依据数据集的具体数据分布,为整个分类空间建立不同个数的分类代表.肖斌等[9]提出分布式KNN算法的概念,接受Hadoop平台实现基于MapReduce模型的KNN算法,并将其应用到微信公众号的分类中. 但KNN算法仍存在很多的缺点,如:在相像度的计算上,每一个待分类文本都需要和训练集里的每一个训练文本进行距离度量的计算,并记录度量值,时间和空间冗杂度都比较大;在特征提取上,约减词数不合理,导致分类的结果也不一样;在K值的选取上,也始终没有科学有效的结论等. 本文针对上述问题进行讨论与分析,提出改良方案.在特征维数约减上,提出文档频率〔DF〕-卡方统计特征提取方式,快速求取文档频率值并进行约减,对保存词汇利用卡方统计量再次进行特征提取,最终对留下的词汇猎取DF值,并进行后续的权重设置;在分类的相像度计算上,提出基于分组中心向量的改良KNN算法,对每个类别下的文本向量进行分组操作,求出该类别下每组向量的中心向量,重新代表训练集文档在该类别下的向量,既保证了代表向量的数量,提高了分类的精确度,又降低了训练集数量,提高了相像度量计算的效率. 1特征提取方法 1.1文档频率 DF是指计算每个特征在整个训练文档集中出现的文档频数,它是衡量一个特征是否对文本的表示有奉献的重要指标.在进行特征提取时,需要设定阈值.当特征项低于或高于阈值时,删除该特征项.DF特征提取计算简洁,时间冗杂度低,特别适用于大规模的语料库.DF计算公式如下: 1.2卡方

您可能关注的文档

文档评论(0)

HBXTWH + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档