- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例_精品
贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例
中国卫生统计2007年10月第24卷第5期
贝叶斯模型平均法的基本原理及其在
logistic回归中的应用实例*
复旦大学公共卫生学院流行病学教研室(2o0032)张志杰彭文祥周艺彪庄建林姜庆五
?
467?
【提要】目的介绍Byesian模型平均法的基本原理,并对实际资料进行分析,指出该方法的优越性.方法以
Hosmer和Lemeshow研究低出生体重婴儿影响因素的队列研究为例,分别以Bayesian模型平均法和逐步logistic回归法选
择最佳模型,并分析比较二者的差异及原因.结果Bayesian模型平均法确定的l0个后验概率最大的模型的累积后验概
率仅为0.59,模型本身的不确定性是很大的,而逐步logistic回归法确定的最佳模型的后验概率(P(≠0ID)lt;0.032)要
远低于Bayesian模型平均法确定的最佳模型的后验概率(P(≠0fD)=0.12).从回归系数的估计值,标准误和P值比
较两种方法的结果发现.Bayesian模型平均法估计的精度较高,而逐步logistic回归法由于没有考虑模型本身的不确定性,
偏向于高估结果.结论BaYesian模型平均法考虑了模型本身的不确定性,其分析结果更可靠,在统计建模中具有较好的
应用前景.
【关键词】logistic回归模型;Bayesian模型平均法;模型不确定性;后验概率
通常的数据分析一般是先描述资料的基本特征,
然后指定某一个模型(如:logistic回归模型),通过两
阶段变量筛选法(two—stagemethod)¨J或逐步回归
法[]确定最佳模型,并在此基础上进行参数检验和可
信区间的计算及预测,然而由于数据的部分信息被用
于人为地指定某个特定模型而导致所建立模型的效能
与预测能力均减弱【3J,这是频率统计(即我们通常所
说的经典统计学)建立模型的一个弱点,其主要的原因
是未考虑模型本身的不确定性(modeluncertainty).
当用回归模型或广义线性模型对所收集的数据建立模
型时,模型本身的不确定性可能很大【5],忽略模型本
身的不确定性而仅仅以单一模型的结果进行感兴趣
量(quantitiesofinterest)的推断,一方面会低估感兴
趣量的不确定性,高估结果,导致结果的适用范围
(coverge)要比研究中指定的范围(statedcoveragelev—
e1)要窄.7j,另一方面会比正常情况下更趋向于拒绝
无效假设产生误导性结果[引.本文以二值应变量为
例介绍考虑了模型本身不确定性的具有较高预测能力
的Bayesian模型平均法(Bayesianmodelaveraging,简
称BMA),然后对实际资料进行了分析,阐明了其优越
性.
原理与方法
1.Bayesian模型平均法的基本原理
对于应变量为0/1变量的资料,通常是使用logis—
tic回归模型进行分析.logistic回归模型通常可以表
示为:log()+置x,Y是0/1变量,X
(i=1,2,…,n)是自变量,(i=1,2,…,n)是回归系
数,exp()即OR值.
频率统计中logistic回归模型建模方法(如:向前
变量筛选法,向后变量筛选法,逐步变量筛选法等)都
忽略了模型本身的不确定性,而Bayesian模型平均法
则是一种基于Bayesian基本原理的将模型本身的不确
定性考虑在内的统计分析方法[.9Ilo1,它综合考虑了
模型及参数的先验信息和样本提供的信息,其分析更
具有科学性.
假设△是我们研究感兴趣的量,本文指的是OR
值或,D是我们调查所得的数据,M={M一,M}
代表所有可能的模型组成的模型空间,而哪一个模型
是最佳模型事先并不知道,即模型本身的不确定性.
通常情况下,可以考虑的模型数量是很大的,例如:lo—
gistic回归模型中如果有P个自变量,那么在不考虑
交互作用的情况下可以考虑的模型数量为2户.根据
Bayesian模型平均法的理论,△的后验分布为:
P(AID)=gt;P(AIM,D)P(MID)
=
1
(i=1,2,3,…n)(1)
其中,P(AIM,D)是在给定数据D和模型M的条
件下△的后验分布;P(M/D)是在给定数据D的情
况下M为最优模型的概率.从方程(1)可以看出,△的
后验分布实际上是以后验模型概率P(M/D)为权
重,对所有模型的后验分布进行加权的一个平均值.
在(1)中,假定M为最优模型的情况下,△的预
*国家自然科学基金重大项目,十五,国家科技攻关项目测子布为:
:.p(AIM):fp(AMf,D)P(flIMi,△通讯作者:姜庆五,qⅥ巧iang@,021~j
D)d8,=(flo,1,…,),为模型M回
您可能关注的文档
- 计算机组成原理(蒋本珊)第3章-出版社_精品.ppt
- 计算机组成原理课程设计---一台模型计算机的设计与调试_精品.doc
- 计算机组装与维护实习报告_精品.doc
- 计算机硬件课程设计实验报告_李淑文1_精品.doc
- 计算机组织与体系结构课程设计报告_具有逻辑运算及跳转功能的复杂模型机设计_精品.doc
- 计算机组装与维护毕业实习报告_精品.doc
- 计算机组成原理课程设计-基于EDA和FPGA技术的8位模型计算机的设计与实现_精品.doc
- 计算机组成原理习题答案(蒋本珊)_精品.doc
- 计算机网络安全浅析 计算机毕业论文外文文献翻译_精品.doc
- 计算机组成原理课程设计—基于微程序控制器的简单计算机系统设计与实现_精品.doc
文档评论(0)