模式识别近邻法解读.ppt

下载文档 降价啦

15
0
约5.8千字
约 63页
2017-03-31 发布于湖北
举报
版权申诉
保障服务

模式识别近邻法解读.ppt

1、本文档共63页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

K-近邻法的错误率界例投票法最近邻分类的错误率 K-近邻法的错误率界粗略地说，有些样本落在了其它类的决策区，错了。而这个错的样本又可能把正确地落在区域内的样本弄错，所以最近邻法的错误率在贝叶斯错误率和2倍贝叶斯错误率之间。最近邻法的决策边界：训练样本的部分Voronoi Diagram 近邻法虽然没有直接计算决策边界，然而所得到的决策边界是训练样本Voronoi Diagram的一个子集。每一条线是不同类样本间连线的平分线。样本越多，决策边界越复杂。减少近邻法的计算和存储问题减少训练样本的数量，尽量利用“好”的训练样本。设计好的数据结构和查找算法快速查找x的k近邻。存储所有的训练样本需要大量的存储，要从训练样本中挑选一些好的样本常用的方法有两种：逐步从训练集中删掉一些“坏的”样本。逐步从训练集中挑选出一些“好的”代表样本。 4.3 剪辑近邻法由前面的图可以看出，在投票法的k－近邻法中，第类的样本落在类的区域后，它可能成为某些类样本的近邻，因而引起额外的错误，这是为什么近邻法的错误率大于贝叶斯错误率的原因。这些额外的错误可以通过去掉类落在类区域中的样本而减少（上图中的1、3、5、6）。在实际问题中，由于不知道准确的贝叶斯决策边界，所以不能准确确定类落在类区域中的样本。而代之以去掉被k近邻分错的样本。这样得到的样本集合称为剪辑（Edited set）集。以后的实验样本集用剪辑集按k近邻法分类。这种算法称为剪辑近邻法。在剪辑近邻法中，类的落在类区域中的有些样本被（正确）分到了类，因而未被剪掉。而类的在区域中的一些样本则有可能被误分类，而被剪辑掉。所以剪辑近邻法的错误率不可能和贝叶斯错误率一样。下面我们分析渐进情况下（即）时的错误率。 1 剪辑的最近邻法的错误率假定给出x的后验概率为和，在使用投票法的最近邻中，被正确分类和不正确分类的概率为和 i=1,2 剪辑的最近邻法的错误率当剪辑掉被错分的，保留分对的时，在剪辑集中x的后验概率为剪辑的最近邻法的错误率原来样本集若用剪辑集按NN法分类，则错误率为式中利用了，当时。剪辑的最近邻法的错误率可以证明，未剪辑的最近邻法的错误率和贝叶斯错误率分别为上式的上下界： , ( ) 更一般的剪辑近邻法用一近邻剪辑，用一近邻分类更一般的剪辑近邻法重复使用最近邻法，把落在类区域中类的样本剪掉，其错误率的情况为 4.4 压缩近邻法近邻法存在的问题计算量大，存储量大，要计算大量的样本间的距离在投票近邻法，靠近贝叶斯决策边界的点对分类有关键作用。而位于各类类中心附近、远离决策边界的点不影响分类，因而可以把它们去掉。这样减少（参考）样本点，可以节省近邻法的时间和空间。这类的算法称为压缩近邻法。压缩近邻法每个样本x的条件风险是表示x是否靠近决策边界的一种度量。因此可设置一个阈值τ，并把小于阈值的样本去掉，。为了避免如剪辑法中讨论的问题，减少额外的错误，应当先剪辑，后压缩。压缩近邻法下面是一个压缩算法：（这个算法没有计算，另种思路） Condensing algor. 设两个存储器Store和Grabbag。把第一个样本放入Store中，把所有其它样本放在Grabbag中压缩近邻法用当前Store中的样本按一近邻规则对Grabbag中样本进行分类。若分类正确，则该样本仍放回Grabbag中；否则，放入Store中。对Grabbag中的所有样本重复以上过程。若从Grabbag中转到Store中的样本数为0，或Grabbag中的样本数变为0时，停止。否则转2。压缩后，以Store中的样本作为分类的参考集（设计集） 4.5 查找k近邻的快速算法（树有哪些信誉好的足球投注网站）为了减少查找k－近邻的计算量，需要尽量避免穷尽地计算和所有样本间的距离，可把样本组织（分解）成一定的等级如树结构等，尽量排除一些不必要的计算。常用的是k-d树等一类结构和有哪些信誉好的足球投注网站算法。假定样本集，目的是要在 X 中寻找未知样本x的k个近邻。为了简单，先假定k＝1，即最近邻的有哪些信誉好的足球投注网站。下面介绍另外一种把样本组织成树结构的算法。算法分两个