- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
贝叶斯统计读书笔
贝叶斯统计
葛鹏飞
1、贝叶斯统计学回顾
定理1:贝叶斯定理的形式如下:
它让我们能够通过后验概率,在观测到D之后估计w的不确定性。
贝叶斯定理右侧的量由观测数据集D来估计,可以被看成参数向量w的函数,被称为似然函数(likelihood function)。它表达了在不同的参数向量w下,观测数据出现的可能性的大小。在观察到数据之前,我们对参数的一些假设,通过先验分布体现。
给定似然函数的定义,贝叶斯定理按照自然语言如下:
几个问题的引入
观察贝叶斯定理,在将贝叶斯方法用到统计问题以及更进一步的机器学习问题中,很直观的我们有以下问题需要考虑:
(1)似然函数的选择;
(2)先验分布的选择;
(3)在确定似然函数和先验分布之后,得到后验分布,如何根据后验分布做出统计推断以及决策;
(4)如何评价我们的前三步的选择。
之后我们将逐步解决以上四个问题。
似然函数的选择
前面的章节中,已经介绍过过拟合和欠拟合的概念:复杂的模型会导致过拟合,而简单的模型又会有欠拟合的忧虑。在贝叶斯方法中同样如此,似然函数包含着我们对数据D所了解的全部信息,合理的选择似然函数的形式,将直接影响模型的好坏,将这个问题称作贝叶斯模型选择。
假设我们想比较L个模型,其中i=1,...,L。
给定一训数据集D,由贝叶斯定理,我们有模型的后验分布:
先验分布让我们能够表达不同模型之间的优先级,假设我们对任意一个模型都没有偏爱,我们发现关于模型分布正比于模型的似然函数,因此最大化后验分布等价于最大化似然函数。由此,我们引入模型证据的概念,或者称作边缘似然函数。下面给出相应定义:
定义2:(模型证据的定义)
使用模型证据的概念,我们就可以进行贝叶斯模型选择,其中的合理性,有以下的近似结论:
最大化模型证据的结果将使得我们选择一个复杂度适中的模型。
关于这点将给出近似的证明,为便于理解,我们使用到如下两图:
证明:
在w为m维的情况下,上式可写作:
取对数可得:
当m逐渐变大时,第一项似然函数会逐渐变小,但是第二项会逐渐变大,以此最大化模型证据涉及到第一项与第二项的权衡。
最大化模型证据的结果将使得我们选择一个复杂度适中的模型。
基于最小化模型证据,我们能选取到复杂度合适的模型,避免了交叉验证使得数据未被全部利用以及重复运算所带来的计算消耗。
先验分布的选择
先验分布代表我们主观对参数的知识以及偏好,先验分布的选取方法主要分为以下几种:
主观的概率:主要依靠历史数据、专家意见得到先验分布;
无信息先验分布:假设我们对任意一个参数都没有偏爱,使先验分布对后验分布的影响尽可能的小;
共轭先验分布:使得参数的先验分布与后验分布有相同的内核;
多层先验:寻找影响参数先验分布的参数。
我们对后三种先验分布做简单的介绍:
4.1无信息先验分布
在某些概率推断的应用中,我们可能有一些先验知识,可以方便地通过先验概率分布表达出来。例如,如果先验分布令变量的某些值的概率为零,那么后验分布也将会使那些值的概率为零,与后续的数据观测无关。但是,在许多情形下,我们可能对分布应该具有的形式几乎完全不知道。这时,我们可以寻找一种形式的先验分布,被称为无信息先验(noninformative prior)。这种先验分布的目的是尽量对后验分布产生尽可能小的影响(Jeffreys, 1946; Box and Tiao, 1973; Bernardo and Smith, 1994)。这有时被称为“让数据自己说话”。
无信息先验主要有以下几种组成:
位置参数的无信息先验为1;
尺度参数的无信息先验为参数的倒数;
Jeffreys先验分布:利用参数中的信息量确定无信息先验。
4.2共轭先验分布
在第三章的介绍中,我们已经接触到了共轭先验分布,故此处不展开。
4.3 多层先验分布
当我们给先验分布一个先验分布时,就得到我们的多层先验分布,相应的贝叶斯模型称作多层贝叶斯模型:
假设我们的多层贝叶斯有如上结构,由贝叶斯定理得如下公式:
由这两个分布我们可以计算出任意的边缘分布与条件分布。
贝叶斯推断与贝叶斯决策
5.1贝叶斯推断
在之前的章节中,我们遇到了很多种不同的点估计,现在总结如下:
5.2贝叶斯决策
在一个统计问题中,我们不仅要对其中的不确定性进行度量,还需要对相应的问题做出决策。我们假设一个问题中,有一个输入向量x和其输出y,y可以是回归问题中的目标也
文档评论(0)