- 1、本文档共30页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5 总体分布的非参数估计方法 1) 本节所述估计的目的 从样本集?估计样本空间任何一点X的概率密度 P’(X); 如果?来自某一类别(如wi类),则估计结果为类条件概密P’(X|wi); 如果?来自c个类别,但不具体涉及类别,则估计结果为混合密度P’(X)。 2) 非参数估计的基本思想 ① 随机向量X落入到区域R的概率P为: 这表示概率P是概密函数P(X)的一种平均,对P作估计就是估计出P(X)的这个平均值。 ③ 如果把样本数目固定,而令V趋于零,由于样本数目总是有限的,所以当V趋于零时,会使区域R不断缩小以致于可能不包含任何样本,这就会得出P’(x)=0(无价值的估计); 如果恰巧有一个或几个样本同X(点)重合的出现在R中,则会使估计发散到无穷大(这也是无价值的估计)。 3) 理论上的解决方案 为了提高X处的概密P(x)的估计精度,据极限理论,采取如下步骤以尽量满足理论要求。 ① 构造一包含样本X的区域序列R1、R2 、…、RN 、…各区域RN(N=1,2,…)的体积VN满足: ② 在RN域中取N个样本进行估计实验,并设有kN个样本落入RN中,样本数目应满足: ③ 应满足: 则估计序列 (N=1,2,…) 处处收敛于P(x)。 说明: 在区域平滑地缩小,且P(x)在X点连续的情况下,则: 条件①可使空间平均密度P / V收敛于真实的密度P(x); 条件②仅对P(x)≠0的点才有意义,即当P(x)≠0时,使 P’(x)≠0,可使频率在概率意义上收敛于概率; 1) Parzen窗估计的概念 ? 要估计d维空间中某点X的概率密度时,可以以X为中心,作一边/棱长为hN的d维超立方体VN,则其体积为: 此立方体被视为一个窗口。 现在的问题是要求出落入VN中的样本数kN。 u = {u1 ,…, ud}T Φ(u)是一个以原点为中心,边/棱长为1的d维超立方体函数,其函数值为1(可用于计样本数)。 ? 由于通过坐标的平移和尺度的缩放可以改变超立方体的位置和大小。所以对于一个以X为中心,以hN为边/棱长的超立方体,用变量Xi(此Xi可作样本)刻划下的通用窗函数的形式如下: 1 当 0 其他 2) 估计量P’N(x)为密度函数的条件 作为窗函数需要满足以下两个条件: ① ② 即窗函数本身具有密度函数的形式,则P’N(x) 一定为密度函数。 其中条件①保证P’N(x)非负; 条件②保证在整个参数空间积分为1,即 3) (一维下)窗函数常见的其它几种形式 ① 方窗函数: ② 正态窗函数: ③ 指数窗函数: ④ 三角窗函数: 若hN太大,则?N的幅度就很小,而宽度将拓宽(因为窗口的面积一定)。同时只有当Xi离X较远时,才能使?N(x-xi) 与?N(0)的函数值相差的多一些,此时P’N(x)是N个低幅的、函数值变化缓慢的、宽垮的函数的叠加,这样将使P’N(x) 较平滑,但不能跟上P(x)的变化,分辨率较低。 若hN太小,则?N的幅度就很大,而宽度很窄,近似于以Xi为中心的?函数,且峰值出现在X=Xi附近,此时P’N(x)是N个以Xi为中心的尖脉冲在X点处的叠加,使P’N(x)波动太大,不稳定,可能失去连续性。 ∴ hN的选取对P’N(x)影响很大,如何选择hN需要一定的经验,一般要折中考虑。 5) 估计量P’N(x)的统计性质 ? 对于任一固定的X,P’N(x)的值还与随机样本集{x1,x2,…,xN}有关,采用不同的样本集,就会有不同的P’N(x)值,即P’N(x)是一个随机变量,且它依赖于随机的训练样本,所以估计量P’N(x)的性质只能用统计性质表示。 ? 另外用P’N(x)来估计一个未知密度函数时,只能用它的均值P’N(x),同时为了知道估计的确定性程度,还必须知道它的方差?2(x)。即如果存在: 则估计量P’N(x)均方收敛于P(x)。 (3)窗宽限制: ⑤ ⑥ (4)对样本的要求: ⑦
文档评论(0)