- 1、本文档共116页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章 概率密度函数估计 - 西安电子科技大学
一般地, σ0≠0, 此时, 当N→∞时, μN→mN, 也就是说, 如果增加样本数N, 能从样本得到不随σ、 σ0变化的μN。 若σ0=0, 则 , μN=μ0, 说明先验值μ0很可靠, 以致不论做多少样本观测, 都不改变其结果。 若 , 则μN=mN, 说明先验值十分没有把握。 只要σ/σ0不是无穷大, 则增加样本数, 就会使μN接近mN, 此时μ0、 σ20的具体值就不太重要了。 3.3.3 贝叶斯学习 贝叶斯学习是指在求出待定参数θ的后验分布后, 不再去估计θ, 而是直接求总体分布p(x|X), 即 (3-43) 其中 现在还需要讨论p(x|X)是否收敛于p(x)的问题, 其中p(x)是x的真实总体分布, 它的参数为真实参数θ。 为了明确表示样本集X中的样本个数, 用XN表示由N个样本组成的样本集, 即XN={x1, x2, …, xN}。 假设样本之间相互独立, 当N1时, 有 (3-44) 此外, 后验概率与样本个数的关系为 (3-45) 随着样本数的增加, 我们可以得到一个密度函数序列p(θ), p(θ|x1), p(θ|x1, x2), …, 这个过程称为递推贝叶斯方法。 如果该密度函数序列收敛于一个以真实参数为中心的δ函数, 则p(x|XN)收敛到p(x), 即 称这一性质为贝叶斯学习。 在例3.5中得到后验概率密度p(μ|X), μN反映了在观察到一组样本集后对μ的推断, 而σ2N则反映了对这一推断的不确定性。 由于σ2N随着N的增加而单调减少, 说明每增加一个观察样本都可以减少对μ推测的不确定性。 当N增加时, p(μ|X)的峰会变得越来越突起, 当N→∞时, 它趋近于δ函数, 如图3-2所示。 因此, 正态分布具有贝叶斯学习的性质。 图 3-2 正态分布的贝叶斯学习示意图 在例3.5中得到后验概率密度p(μ|X)以后, 由下式可以求出样本x的概率密度函数, 即 (3-46) 即p(x|X)是正态密度函数,均值为 ,方差为 ,即 (3-47) 由式(3-47)可知, 贝叶斯学习和贝叶斯估计得到的总体均值是相同的, 都是μN; 贝叶斯学习得到的总体概率密度函数的形式与已知形式相同, 只是用μN代替μ, 用σ2+σ2N代替σ2。 由于用μN代替真实值μ会带来不确定性的增加, 因而方差σ2增加为σ2+σ2N。 3.4 概率密度函数的非参数估计 3.3节讨论了概率密度函数的参数估计, 其中假设概率密度函数的形式是已知的。 但是, 在大部分情况下, 概率密度函数的形式是未知的。 本节讨论在函数形式未知情况下的概率密度函数估计, 即非参数估计方法。 3.4.1 非参数估计的基本原理 设样本x的概率密度函数为p(x), 则x属于区域Ω的概率P为 (3-48) 上式表明, 概率P是密度函数p(x)的一种平均形式, 对P的估计就是估计出p(x)的这个平均值。 假设x1, x2, …, xN是N个独立抽取的样本, 其概率密度函数为p(x)。 N个样本中有k个属于Ω区域的概率为 (3-49) 其中, 。为一个随机量,k的数学期望为: (3-50) k的分布在其均值附近有一个陡峭的峰, 可以认为 k/N 是P的一个很好的估计, 也是概率密度函数平均值的一个好的估计。 进一步假设p(x)是连续的, 并且Ω的范围很小, 以至于p(x)在Ω上几乎是不变的, 那么, (3-51) 其中, x是Ω中的一个点, V是Ω的“体积”。 综合上述分析, p(x)的估计为 (3-52) 在式(3-52)中, 如果固定Ω, 即体积V固定, 样本数N→∞, 则k/N→P, 此时, (3-53) 即式(3-52)得到的是概率密度函数p(x)的空间平均估计值。 要想得到概率密度函数p(x), 而不是p(x)的空间平均估计值, 就需要让Ω的体积V趋近于0。 若把样本数N固定, 令V趋于0, 以至于Ω不包含任何样本, 此时, p(x)≈0, 这种估计是没有意义的; 或者恰有一个或几个样本同x重合, 此时, p(x)为无穷大, 同样也没有意义。 事实上, 样本数目总是有限的, 从而要求体积不能任意小, 因此, 所得到的密度函数估计结果还是一定范围内的平均值。 为了估计x点处的密度, 构造一个包含x的区域序列Ω1, Ω2, …。 假设N时刻的样本数为N, ΩN的体积为VN, ΩN中的样本数为 kN, 则p(x)的估计pN(x)为 (3-54) 如果满足以下三个条件: (3-55) (3-56) (3-57) 那么, pN(x)收敛于p(x)。
文档评论(0)