- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
.128. 2006年信息、电子与控制技术学术会议论文集
;;;;;=;篇搿IllI II———————篇黼茹;;=;;=赫黼雀;;昌昌昌毒黼黼黼;;;=昌爿黼黼黼宣
基于粗糙集和分布密度理论的KNN分类样本选取方法
刘毅扬燕
I摘要lKNN算法对错误标识的训练样本搠那些处在 真正想要得到知识来说是没用的;而且现今的有哪些信誉好的足球投注网站
各类样本边界处的新文本的分类比较敏感,往往会导致 引擎都是基于哭键词匹配技术,对于web网中隐藏
难以得到理想的分类效果。所以说训练样本集选取的好 的那些知识发现力度不够,这就造成了知识发现的
壤是KNN葵法进行文本分类鹈关键。为魏,本文提出一 遗漏。弱用web文本挖掘技本——放大量web文零
种基于粗糙集和分布密度理论稻结合酶KNN分类样本选 数据中提取隐含在其中的、事先未知的、但又怒潜
择方法,先利用粗糙集理论的下近似集从训练文本中选
在的、可以理解的,最终可用的信息和知识的过程。
取出典型的文本类别样本,阍时消除那些被错误标识的
对web网页进行自动分类是解决互联网上知识发现
样本,然后褥用基于密度的KNN分类训练样本选取方法,
使稍练样本分雍尽量均匀,从嚣保证了KNN分类器薛准 的根本途径。
确率。实验结果表明,该分炎样本选取方法能改进KNN 在众多分炎算法孛,KNN作为一释易于理解鱼
文本分类系统的性能。 效槊很好的文本分类算法,在文本分类中得以广泛
I关键词lKNN;粗糙集;样本选取;文本分类、 应用。文献【1】提到事实证明KNN不但是英文文本
分类最好的算法之一,丽且其在中文文本分类也有
AnEdit SetMethodBasedon Sets 很强憨霹移檀性,表瑗了很好麓中文文本分类往
Training Rough
and forKNN
Density 能。从本质上讲jKNN文本分类系统是基于实例的
LIUYi 姒NGYan 学习系统,即事先给定一个进行了类别标识的文本
XNN iSsensitiveto也e 训练集,根据此训练集构建分类器,对于新的待分
Abstract:The
algorithm
close
labeled orob{ects
incorrectlytrainingsamples 类文本,通过分类器找到一个或多个穗薪文本裾似
lothedecision’S canresultinerror
boundary,and 漪样本,将样本的类男I标识赋绘新文本,完成对新
classification.ThatiSto setiSthe
say.thetraining key
文本分类。
elementtotextcategorizationused KNN.Soin
by
this a edit setmethodis 但是KNN算法也有明显的弊端,其对错误标
paperhybrid training
thatcombinesthe setand
presented rough density
识的谰练样本襁秀5些处在各类样本边界处的撅文
thelower methodin
theory.Firstlyapproximations
文档评论(0)