- 1、本文档共46页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章 非参数技术 - 中山大学
Chapter 4 Non-Parametric Classification – 非参数技术 内容介绍 传统的参数形式的密度函数都是单模的,也即是只有单个局部极大值,而现实生活中所遇到的却常常是多模的情况 “非参数化方法”能处理任意的概率分布,不必假设密度的参数形式已知 在模式识别中,有两种常用的非参数化方法: 从训练样本中估计概率密度函数P(x | ?j ) 跳过概率密度函数估计,直接估计后验概率 4.2 概率密度函数的估计 - Density Estimation 一个向量 落在区域 中的概率为 (1) 这里 是概率密度函数 的平滑了的版本。假设N个样本 都是根据概率密度函数 独立同分布抽取的,显然,其中k个样本罗在区域 中的概率服从二项式定理: (2) k的期望值为: (3) 有最大似然估计ML可得 就是概率P的一个很好的估计,这个估计当样本个数n很大的时候将非常精确。 假设 是连续的,并且区域R足够小,以至于在这个区间中p几乎没有什么变化,这时则有: (4) 其中 为一个点,而 则是区域R所包含的体积,也即是: (5) 密度估计的收敛条件 如果固定体积V的值,并且能够获得的训练样本足够多,那么比值 将能够收敛,但是此时的收敛结果是 的空间平滑后的版本: (6) 首先我们构造一系列包含点 的区域: 。第一个区域使用1个样本点,第二个区域使用2个样本点,等等。记 为区域 的体积, 为落在区间 中的样本个数而 表示对 的第 次估计: (7) 条件(1)保证了在区域均匀收缩和 在点 处连续的情况下,空间平滑了的 能够收敛到 条件(2)只有在 时才有意义,保证了频率之比能够收敛到概率 条件(3)对于保证公式(7)的收敛性显然是需要的,这个条件也保证了虽然最后落在小区域 中的样本个数非常大,但这么多样本在全体样本中所占的比例仍然是很小的 首先,我们定义如下的窗函数,从而解析地得到落在窗中的本 个数 的表达式: (8) 这样, 就表示一个中心点在原点的单位超立方体。如果 落在 超立方体 中,那么 ,否则为0。这里假设区间 是一个 维的超立方体。 表示其一条边的长度,体积为 。 因此落在超立方体中的样本点个数为: (9) 2. 使用不同的窗宽度和样本数量对二维正态概率密度进行的Parzen 窗估计的结果 4.3.5 概率神经网络 —Probabilistic Neural Network (PNN) 4.4 -近邻估计 如果使用最近邻规则,那么每当 时,就产生一次分类误差,这样上式就可化为 由于当n趋近于无穷大时, 逼近狄拉克函数,如果 在x处连续,那么我们就可以得到 (20) (21) 4.5.3 误差界 无限样本个数时的最近邻规则的误差率P为: 当贝叶斯误差率非常小时,最近邻规则的误差率约等于贝叶斯
文档评论(0)