- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE
1 -
基于改进K最近邻算法的中文文本分类
基于改良K最近邻算法的中文文本分类
5137〔2021〕01-0096-06
Abstract:Thispaperfocusesonthehighdimensionaltextproblemsencounteredintextclassification.Documentfrequency〔DF〕-chisquarestatisticfeatureextractionmethodisproposedtoreducethefeatureitemsandreducethedimensionoftext.BasedontheKNearestNeighbor〔KNN〕algorithm,inviewoftheproblemthattexttobeclassifiedshouldbecalculatedinsimilaritywithalargenumberoftrainingsetsamples,aKNNalgorithmbasedongroupingcentervectorisproposed.Thecentervectorsofeachgroupwereobtainedbygroupingthesamplesetsinthecategory,soastoimprovetheclassificationperformanceofthealgorithm.Experimentsshowthattheimprovedalgorithmhasimprovedtheprecisionrate,recallrateandF-measurecomparedwiththetraditionalKNNalgorithm,andittakesadvantagesofotherclassificationalgorithms.
Keywords:textclassification;KNearestNeighbor〔KNN〕algorithm;featureextraction;similarity
0引言
中文网页分类的主要流程有:网页文本信息猎取、分词处理、特征提取和权重设置、文本向量表示、算法处理及性能评价.目前已经有许多比较成熟的文本分类模型:K最近邻〔KNN〕算法、朴实贝叶斯〔NB〕算法、神经网络〔NN〕算法、决策树〔DT〕算法、支持向量机〔SVM〕等[1].其中,KNN算法较为成熟,数据训练的时间冗杂度要比其他算法的低,异样点不敏感.
KNN算法在中文文本分类方面的应用有许多.郑俊飞[2]提出了一种动态设置K值的策略.ZHANG等[3]提出学习相关矩阵重构测试数据点的方案.CHEN等[4]针对传统的词频-逆文档频率〔TF-IDF〕不能完全有效进行文本分类的缺陷,提出词频-逆重力力矩〔TF-IGM〕特征提取方法.WANG等[5]提出一种基于内核方法和属性约减的分阶式KNN算法,以解决分类过程中維数过高以及分类的精确度受到训练样本分布不均影响的问题.周庆平等[6]提出了基于聚类改良的KNN算法,大幅削减时间冗杂度.刘述昌等[7]提出了基于中心向量的多级分类KNN算法,不仅降低了算法冗杂度,还提高了分类速度.邱定等[8]将Rocchio算法和KNN算法结合,依据数据集的具体数据分布,为整个分类空间建立不同个数的分类代表.肖斌等[9]提出分布式KNN算法的概念,接受Hadoop平台实现基于MapReduce模型的KNN算法,并将其应用到微信公众号的分类中.
但KNN算法仍存在很多的缺点,如:在相像度的计算上,每一个待分类文本都需要和训练集里的每一个训练文本进行距离度量的计算,并记录度量值,时间和空间冗杂度都比较大;在特征提取上,约减词数不合理,导致分类的结果也不一样;在K值的选取上,也始终没有科学有效的结论等.
本文针对上述问题进行讨论与分析,提出改良方案.在特征维数约减上,提出文档频率〔DF〕-卡方统计特征提取方式,快速求取文档频率值并进行约减,对保存词汇利用卡方统计量再次进行特征提取,最终对留下的词汇猎取DF值,并进行后续的权重设置;在分类的相像度计算上,提出基于分组中心向量的改良KNN算法,对每个类别下的文本向量进行分组操作,求出该类别下每组向量的中心向量,重新代表训练集文档在该类别下的向量,既保证了代表向量的数量,提高了分类的精确度,又降低了训练集数量,提高了相像度量计算的效率.
1特征提取方法
1.1文档频率
DF是指计算每个特征在整个训练文档集中出现的文档频数,它是衡量一个特征是否对文本的表示有奉献的重要指标.在进行特征提取时,需要设定阈值.当特征项低于或高于阈值时,删除该特征项.DF特征提取计算简洁,时间冗杂度低,特别适用于大规模的语料库.DF计算公式如下:
1.2卡方
您可能关注的文档
- 化工安全设计中的危险因素及应对措施分析.docx
- 化工安全生产、治理工作研究.docx
- 基于风险观的综合机械化和机电一体化在煤矿开采中应用分析.docx
- 基于风险治理的高校内部操纵进展建议.docx
- 基于风险治理视角探析公立医院内部操纵问题.docx
- 基于伏安特性方程的CMOS数字电路电压传输特性研究.docx
- 基于辅导员视角的大学生网贷问题及抵制教育.docx
- 基于复变函数的混合型大数据多源集成系统设计.docx
- 基于改进CART算法的降雨量预测模型.docx
- 基于改进TOPSIS法的PPP项目风险初步分担研究.docx
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
最近下载
- 2018-2019学年辽宁省本溪市实验中学八年级(上)第一次月考物理试卷(附答案详解).docx
- 3.大功率激电测深工作方法.pdf
- 权吉浩-《长短的组合》原版五线谱钢琴谱正谱.pdf
- 消毒供应中心管理.pptx
- 2020~2021学年第一学期期末考试九年级历史试卷.pdf VIP
- 埃斯顿pronert伺服驱动器说明书.pdf
- EPC工程总承包项目管理办法.docx
- JTT 1504.1-2024 公路基础设施长期性能科学观测网 第1部分:建设规范.docx
- 在线网课学习课堂《高级医学英语(首都医大 )》单元测试考核答案.pdf
- 2020-2021学年广州市白云区九年级上学期期末数学试卷(含答案解析).docx
文档评论(0)