第五章贝叶斯估计..docx

下载文档 降价啦

7
0
约5.66千字
约 10页
2017-01-13 发布于重庆
举报
版权申诉
保障服务

第五章贝叶斯估计..docx

1、本文档共10页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第五章贝叶斯估计.

第五章贝叶斯统计5.1 简介到目前为止，我们已经知道了大量的不同的概率模型，并且我们前面已经讨论了如何用它们去拟合数据等等。前面我们讨论了如何利用各种先验知识，计算MAP参数来估计θ=argmax p(θ|D)。同样的，对于某种特定的请况，我们讨论了如何计算后验的全概率p(θ|D)和后验的预测概率密度p(x|D)。当然在以后的章节我们会讨论一般请况下的算法。5.2 总结后验分布后验分布总结关于未知变量θ的一切数值。在这一部分，我们讨论简单的数，这些数是可以通过一个概率分布得到的，比如通过一个后验概率分布得到的数。与全面联接相比，这些统计汇总常常是比较容易理解和可视化。5.2.1最大后验估计通过计算后验的均值、中值、或者模型可以轻松地得到未知参数的点估计。在5.7节，我们将讨论如何利用决策理论从这些模型中做出选择。典型的后验概率均值或者中值是估计真实值的恰当选择，并且后验边缘分布向量最适合离散数值。然而，由于简化了优化问题，算法更加高效，后验概率模型，又名最大后验概率估计成为最受欢迎的模型。另外，通过对先验知识的取对数来正则化后，最大后验概率可能被非贝叶斯方法解释（详情参考6.5节）。最大后验概率估计模型在计算方面该方法虽然很诱人，但是他有很多缺点，下面简答介绍一下。在这一章我们将更加全面的学习贝叶斯方法。图5.1（a）由双峰演示得到的非典型分布的双峰分布，其中瘦高蓝色竖线代表均值，因为他接近大概率，所以对分布有个比较好的概括。(b)由伽马绘图演示生成偏态分布，它与均值模型完全不同。5.2.1.1 无法衡量不确定性最大后验估计的最大的缺点是对后验分布的均值或者中值的任何点估计都不能够提供一个不确定性的衡量方法。在许多应用中，知道给定估计值的置信度非常重要。我们在5.22节将讨论给出后验估计置信度的衡量方法。5.2.1.2 深耕最大后验估计可能产生过拟合在机器学习中，相比于解释模型的参数，我们能够得到精确预测结果。然而，如果我们不能衡量参数的不确定性，那么可能过分信任预测的分布。在第三章我们介绍了几个例子，之后还有更多这样的例子。预测中的过度自信对于我们的风险规避很成问题；在随后的5.7节我们将详细介绍。5.2.1.3 模型是一个非典型的点由于现实模型常常是一个区别于均值或者中值的非典型分布，所以选择一个模型来概括后验分布的效果往往很差。对于一个一维连续空间图5.1（a）中很好的说明了这一点。该模型的一个根本问题在于它是一个0-1的测量值，而中值和均值是在空间体积上的考虑。图5.1（b）给出了另一个例子：图中模型结果是0.但是均值非零。这样的偏态分布经常在推断方差参数时出现，尤其是在分层模型中。在这样的例子中，最大后验估计（最大似然估计例外）明显的是一个非常不好的估计方法。假如模型不是一个很好的选择项，那么我们应该如何概括后验概率呢？在5.7节中讨论的决策理论将会解答这一疑问。其基本思想是指定一个损失函数，如果你对真实的θ的估计是?θ那么损失函数为L(θ, ?θ) 。如果我们使用0-1损失L(θ, ?θ) = I(θ = ?θ)，那么最优估计便是后验模型。0-1损失意味着，如果没有估计错误那么就是正确的，否则就是错误的。再这样的损失函数下没有所谓的“部分可信”！对于连续变量，我们偏好用误差平方来表征损失函数即：L(θ, ?θ) = (θ??θ)2。对应的最优估计是后验均值，详细参见5.7节。或者，我们可以使用一个更可靠地损失函数：L(θ, ?θ) = |θ??θ|，他考虑的是后验的中位数（中值）。5.2.1.4最大后验估计不是做改变的重新参数化最大后验估计的一个更加微妙的是其结果依赖于概率模型的参数。从一个表达形式转化为另一个等效的表达形式，例如测量单位的变化（长度的度量，我们可以用厘米也可以用英尺），其结果会变化，这是我们不希望看到的。为了更好地理解这一问题，假定我们要计算X的后验，如果我们定义y= f(x)，其中y的分布为公式（2.87），为方便描述抄写如下公式5.1：|Dx/dy|项我们成为雅可比（Jacobian）,他通过f来衡量单位体积大小的变化。则X的最大后验估计为?x = argmaxxpx(x)。通常情况下，f(x)不是y=argmaxypy(y).举个例子来说：x~N(6,1),y=f(x),利用蒙特卡洛仿真能够得到y的分布（见2.7.1节）。其结果如图5.2.我们看到原始的高斯分布已经被非线性的S曲线乘方。特别的指出的是，我们看到转化后的分布模型不完全等同于原始模型的形式。图5.2 在非线性转换下的密度转化形式示例。注意转化后的分布函数与原始分布的区别。以练习1.4为例（bishop 2006b）。图形由方差的贝叶斯变化生成。为了了解最大后验估计中如何产生这一问题的，考虑如下例子。伯努利分布是典型的均值μ参数化