网站大量收购闲置独家精品文档,联系QQ:2885784924

机器学习__K近邻.pptxVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
K近邻算法K近邻分类器有监督的分类算法: 进行预测,例如,预测给定样本属于一个类别或实值。原理:近朱者赤,近墨者黑。例如:如果它走路像鸭子,嘎嘎叫得像鸭子,那么它很可能是鸭子。特点:不急于从历史训练数据中给出一个分类模型,“惰性”。计算距离测试样本训练样本选择最近的样本K近邻分类器未知样本数据点的3-最近邻数据点的2-最近邻数据点的1-最近邻数据点根据其近邻的类标记号进行分类。如果数据点的近邻中含有多个类标号,则将该数据点指派到其最近邻的多数类。K近邻分类器未知样本给定一个未知样本,基于某种距离度量,k-最近邻分类法有哪些信誉好的足球投注网站训练样本空间,找出最接近未知样本的k个训练样本;然后基于这k个“近邻”的最公共的类来预测当前样本的类标号。三个要素:有标签的样本集用于计算样本之间距离的距离度量k的值,最近邻数量 未知样本的分类:计算到训练样本的距离确定k个最近的邻居使用最近邻的类标签来确定未知记录的类标签(e.g., 取多数票)位于圆圈中心的数据点的3-最近邻K近邻分类器给定一个未知样本,基于某种距离度量,k-最近邻分类法有哪些信誉好的足球投注网站训练样本空间,找出最接近未知样本的k个训练样本;然后基于这k个“近邻”的最公共的类来预测当前样本的类标号。未知样本三要素距离度量01K值的选择02决策规则03位于圆圈中心的数据点的3-最近邻K近邻分类器三要素距离度量01?假设有n个属性,两个样本身高鞋码性别17942男17843男16536女16035女17040男规范化处理:?K近邻分类器/stable/modules/classes.html#module-sklearn.neighborssklearn.neighbors.KNeighborsClassifierclass?sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,? # 默认值5*,?weights=uniform,? algorithm=‘auto’,? leaf_size=30,? p=2,?metric=‘minkowski’,? #default=’minkowski’metric_params=None,?n_jobs=None,?**kwargs) 默认的度量是minkowski,p=2等于标准的欧几里得度量K近邻分类器山鸢尾变色鸢尾维吉尼亚鸢尾花萼长度花萼宽度花瓣长度花瓣宽度0.55.02.2品种(标签)0(山鸢尾)1(变色鸢尾)2(维吉尼亚鸢尾)特征类别150个样本/ml/index.php/ml/index.phpK近邻分类器待预测样本1.3?sklearn.neighbors.KNeighborsClassifier(n_neighbors=5) n_neighbors:int,可选(默认= 5),查询默认使用的邻居数如果把k定为3,那么离测试样本最近3个依次是编号名称3 Iris versicolor12 Iris versicolor20 Iris virginica将 60% 的行数据及对应标签作为训练集,剩下 40% 的数据及其标签作为测试集K近邻分类器三要素决策规则03从最近邻列表确定类多数表决法假设每个邻近样本的权重是一样的,也就是说最终预测的结果为出现类别最多的那个类。加权多数表决法每个邻近样本的权重是不一样的,一般情况下采用权重和距离成反比的方式来计算,也就是说最终预测结果是出现权重最大的那个类别。?e.g. 根据距离加权投票,权重因子, K近邻分类器/stable/modules/classes.html#module-sklearn.neighborssklearn.neighbors.KNeighborsClassifierclass?sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,? # 默认值5*,?weights=uniform,? #{‘uniform’, ‘distance’}?algorithm=‘auto’,? leaf_size=30,? p=2,?metric=minkowski,?metric_params=None,?n_jobs=None,?**kwargs) 与它们的距离成反比。在这种情况下,查询点的近邻会比距离较远的邻居影响更大。每个邻域中的所有点的权重相等。默认的度量是minkowski,p=2等于标准的欧几里得度量K近邻分类器不同决策规则对比训练数据鸢尾花uniform 决策模式的训练误差为:0.807 distance 决策模式的训练误差为:0.927K近邻分类器三要素K值的选择02当K=4时,未知点会根据最近邻原理选取3个五角星,1个三角形,依据少数服从多数原理,将未知点归为五角星类别;当K=11时,未知点根据最近

文档评论(0)

ZuiFeng + 关注
实名认证
文档贡献者

分享文档,资源共享

1亿VIP精品文档

相关文档