网站大量收购独家精品文档,联系QQ:2885784924

基于粗糙集和分布密度理论的KNN分类样本选取方法研究.pdf

基于粗糙集和分布密度理论的KNN分类样本选取方法研究.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
.128. 2006年信息、电子与控制技术学术会议论文集 ;;;;;=;篇搿IllI II———————篇黼茹;;=;;=赫黼雀;;昌昌昌毒黼黼黼;;;=昌爿黼黼黼宣 基于粗糙集和分布密度理论的KNN分类样本选取方法 刘毅扬燕 I摘要lKNN算法对错误标识的训练样本搠那些处在 真正想要得到知识来说是没用的;而且现今的有哪些信誉好的足球投注网站 各类样本边界处的新文本的分类比较敏感,往往会导致 引擎都是基于哭键词匹配技术,对于web网中隐藏 难以得到理想的分类效果。所以说训练样本集选取的好 的那些知识发现力度不够,这就造成了知识发现的 壤是KNN葵法进行文本分类鹈关键。为魏,本文提出一 遗漏。弱用web文本挖掘技本——放大量web文零 种基于粗糙集和分布密度理论稻结合酶KNN分类样本选 数据中提取隐含在其中的、事先未知的、但又怒潜 择方法,先利用粗糙集理论的下近似集从训练文本中选 在的、可以理解的,最终可用的信息和知识的过程。 取出典型的文本类别样本,阍时消除那些被错误标识的 对web网页进行自动分类是解决互联网上知识发现 样本,然后褥用基于密度的KNN分类训练样本选取方法, 使稍练样本分雍尽量均匀,从嚣保证了KNN分类器薛准 的根本途径。 确率。实验结果表明,该分炎样本选取方法能改进KNN 在众多分炎算法孛,KNN作为一释易于理解鱼 文本分类系统的性能。 效槊很好的文本分类算法,在文本分类中得以广泛 I关键词lKNN;粗糙集;样本选取;文本分类、 应用。文献【1】提到事实证明KNN不但是英文文本 分类最好的算法之一,丽且其在中文文本分类也有 AnEdit SetMethodBasedon Sets 很强憨霹移檀性,表瑗了很好麓中文文本分类往 Training Rough and forKNN Density 能。从本质上讲jKNN文本分类系统是基于实例的 LIUYi 姒NGYan 学习系统,即事先给定一个进行了类别标识的文本 XNN iSsensitiveto也e 训练集,根据此训练集构建分类器,对于新的待分 Abstract:The algorithm close labeled orob{ects incorrectlytrainingsamples 类文本,通过分类器找到一个或多个穗薪文本裾似 lothedecision’S canresultinerror boundary,and 漪样本,将样本的类男I标识赋绘新文本,完成对新 classification.ThatiSto setiSthe say.thetraining key 文本分类。 elementtotextcategorizationused KNN.Soin by this a edit setmethodis 但是KNN算法也有明显的弊端,其对错误标 paperhybrid training thatcombinesthe setand presented rough density 识的谰练样本襁秀5些处在各类样本边界处的撅文 thelower methodin theory.Firstlyapproximations

文档评论(0)

精品课件 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档