机器学习算法总结_K近邻.doc

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习算法总结_K近邻

第一章 k近邻 1.1 K近邻简介 k近邻(k-Nearest Neighbor,k-NN)是一种基本的、有监督学习的分类方法,于1968年由Cover和Hart提出,其用于判断某个对象的类别。k近邻的输入为对象特征向量,对应于特征空间上的点;输出为对象的类别。 k近邻算法实例引入: 图1.1 k近邻实例 如上图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那个绿色的圆所示的数据则是待分类的数据。也就是说,现在,我们不知道中间那个绿色的数据是从属于哪一类(蓝色小正方形or红色小三角形),下面,我们就要解决这个问题:给这个绿色的圆分类。 所谓物以类聚,人以群分,判别一个人是一个什么样品质特征的人,常常可以从他/她身边的朋友入手。要判别上图中那个绿色的圆是属于哪一类数据,只需根据它周围的邻居即可。但一次性看多少个邻居呢?从上图中,你还能看到: 如果k=3,绿色圆点的最近的3个邻居(欧式距离)是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于红色的三角形一类。 如果K=5,绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形,还是少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于蓝色的正方形一类。 上面这个小例子基本上体现了k近邻算法的三个基本要素:确定度量方式(欧式距离)、选着k值(2 or 3)、分类决策规则(少数服从多数)。 下面,给出k近邻算法的数学表述: 输入:训练数据集 其中,为实例的特征向量,为实例的类别,;实例特征向量; 输出:实例所属的类。 (1)根据给定的距离度量,在训练集T中找出与x最邻近的k个点,涵盖这k个点的x的邻域记作; (2)在中根据分类决策规则(如多数表决)决定x的类别y: (1-1) 其中,为指示函数,即当时为1,否则为0。 k近邻的特殊情况是k=1的情形,称为最近邻算法,对于输入的对象(特征向量)x,最近邻法将训练数据集中于x最近邻点所属的类作为x的类。 1.2 K近邻模型建立 建立数学模型的过程实质就是确定三个基本要素的过程。 1.2.1 距离度量方式的确定 样本空间(特征空间)中两个对象的距离是它们相似程度的量化反映。k近邻模型的特征空间可被抽象为n维的向量空间R,现在两个对象之间的距离就可转化为两个向量之间的距离,这样研究起来就方便多了。在k近邻模型中,计算向量之间距离的公式列举如下: (1) 欧式距离: (1-2) (2)曼哈顿距离: (1-3) (3)切比雪夫距离: (1-4) (4)闵可夫斯基距离: (1-5) 特点:为综合性的公式 。 (5)马氏距离:    (1-6) 特点:可排除对象间的相关性。 (6)相关距离: (1-7) (7)夹角余弦距离和Tonimoto系数: (I)夹角余弦距离: (1-8)

文档评论(0)

tiangou + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档