parzen窗估计及kn近邻估计实验报告.docVIP

下载本文档

21
0
约7.05千字
约 13页
2018-12-11 发布于浙江
举报
版权申诉

parzen窗估计及kn近邻估计实验报告.doc

1、本文档共13页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

parzen窗估计及kn近邻估计实验报告

装订线装订线模式识别实验报告题目：Parzen窗估计与KN近邻估计学院计算机科学与技术专业 xxxxxxxxxxxxxxxx 学号 xxxxxxxxxxxx 姓名 xxxx 指导教师 xxxx 20xx年xx月xx日 Parzen窗估计与KN近邻估计一、实验目的? 本实验的目的是学习Parzen窗估计和k最近邻估计方法。在之前的模式识别研究中，我们假设概率密度函数的参数形式已知，即判别函数J(.)的参数是已知的。本节使用非参数化的方法来处理任意形式的概率分布而不必事先考虑概率密度的参数形式。在模式识别中有躲在令人感兴趣的非参数化方法，Parzen窗估计和k最近邻估计就是两种经典的估计法。 ?二、实验原理? 1.非参数化概率密度的估计对于未知概率密度函数的估计方法，其核心思想是：一个向量x落在区域R中的概率可表示为：其中，P是概率密度函数p(x)的平滑版本，因此可以通过计算P来估计概率密度函数p(x)，假设n个样本x1,x2,…,xn，是根据概率密度函数p(x)独立同分布的抽取得到，这样，有k个样本落在区域R中的概率服从以下分布：其中k的期望值为： k的分布在均值附近有着非常显著的波峰，因此若样本个数n足够大时，使用k/n作为概率P的一个估计将非常准确。假设p(x)是连续的，且区域R足够小，则有：如下图所示，以上公式产生一个特定值的相对概率，当n趋近于无穷大时，曲线的形状逼近一个δ函数，该函数即是真实的概率。公式中的V是区域R所包含的体积。综上所述，可以得到关于概率密度函数p(x)的估计为：在实际中，为了估计x处的概率密度函数，需要构造包含点x的区域R1,R2,…,Rn。第一个区域使用1个样本，第二个区域使用2个样本，以此类推。记Vn为Rn的体积。kn为落在区间Rn中的样本个数，而pn (x)表示为对p(x)的第n次估计：欲满足pn(x)收敛：pn(x)→p(x)，需要满足以下三个条件：有两种经常采用的获得这种区域序列的途径，如下图所示。其中“Parzen窗方法”就是根据某一个确定的体积函数，比如Vn=1/√n来逐渐收缩一个给定的初始区间。这就要求随机变量kn和kn/n能够保证pn (x)能收敛到p(x)。第二种“k-近邻法”则是先确定kn为n的某个函数，如kn=√n。这样，体积需要逐渐生长，直到最后能包含进x的kn个相邻点。 2.Parzen窗估计法已知测试样本数据x1,x2,…,xn，在不利用有关数据分布的先验知识，对数据分布不附加任何假定的前提下，假设R是以x为中心的超立方体，h为这个超立方体的边长，对于二维情况，方形中有面积V=h^2，在三维情况中立方体体积V=h^3，如下图所示。根据以下公式，表示x是否落入超立方体区域中：估计它的概率分布：其中n为样本数量，h为选择的窗的长度，φ(.)为核函数，通常采用矩形窗和高斯窗。 3.k最近邻估计在Parzen算法中，窗函数的选择往往是个需要权衡的问题，k-最近邻算法提供了一种解决方法，是一种非常经典的非参数估计法。基本思路是：已知训练样本数据x1,x2,…,xn而估计p(x)，以点x为中心，不断扩大体积Vn，直到区域内包含k个样本点为止，其中 k是关于n的某一个特定函数，这些样本被称为点x的k个最近邻点。当涉及到邻点时，通常需要计算观测点间的距离或其他的相似性度量，这些度量能够根据自变量得出。这里我们选用最常见的距离度量方法：欧几里德距离。最简单的情况是当k=1的情况，这时我们发现观测点就是最近的（最近邻）。一个显著的事实是：这是简单的、直观的、有力的分类方法，尤其当我们的训练集中观测点的数目n很大的时候。可以证明，k最近邻估计的误分概率不高于当知道每个类的精确概率密度函数时误分概率的两倍。三、实验基本步骤第一部分，对表格中的数据，进行Parzen 窗估计和设计分类器，本实验的窗函数为一个球形的高斯函数，如下： 1) 编写程序，使用Parzen 窗估计方法对一个任意的测试样本点x 进行分类。对分类器的训练则使用表格 3中的三维数据。同时，令h =1，分类样本点为(0.5,1.0,0.0)，(0.31,1.51,-0.50)，(-0.3,0.44,-0.1)进行实验。 2) 可以改变h的值，不同的h将导致不同的概率密度曲线，如下图所示。 h=0.1时： h=0.5时： h=1时：第二部分的实验目的是学习和掌握非参数估计：k-近邻概率密度估计方法。对前面表格中的数据进行k-近邻概率密度估计方