贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例_精品.doc

下载文档 降价啦

65
0
约1.28万字
约 17页
2018-04-11 发布于湖北
举报
版权申诉
保障服务

贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例_精品.doc

1、本文档共17页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例_精品

贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例中国卫生统计2007年10月第24卷第5期贝叶斯模型平均法的基本原理及其在 logistic回归中的应用实例* 复旦大学公共卫生学院流行病学教研室(2o0032)张志杰彭文祥周艺彪庄建林姜庆五 ? 467? 【提要】目的介绍Byesian模型平均法的基本原理,并对实际资料进行分析,指出该方法的优越性.方法以 Hosmer和Lemeshow研究低出生体重婴儿影响因素的队列研究为例,分别以Bayesian模型平均法和逐步logistic回归法选择最佳模型,并分析比较二者的差异及原因.结果Bayesian模型平均法确定的l0个后验概率最大的模型的累积后验概率仅为0.59,模型本身的不确定性是很大的,而逐步logistic回归法确定的最佳模型的后验概率(P(≠0ID)lt;0.032)要远低于Bayesian模型平均法确定的最佳模型的后验概率(P(≠0fD)=0.12).从回归系数的估计值,标准误和P值比较两种方法的结果发现.Bayesian模型平均法估计的精度较高,而逐步logistic回归法由于没有考虑模型本身的不确定性, 偏向于高估结果.结论BaYesian模型平均法考虑了模型本身的不确定性,其分析结果更可靠,在统计建模中具有较好的应用前景. 【关键词】logistic回归模型;Bayesian模型平均法;模型不确定性;后验概率通常的数据分析一般是先描述资料的基本特征, 然后指定某一个模型(如:logistic回归模型),通过两阶段变量筛选法(two—stagemethod)¨J或逐步回归法[]确定最佳模型,并在此基础上进行参数检验和可信区间的计算及预测,然而由于数据的部分信息被用于人为地指定某个特定模型而导致所建立模型的效能与预测能力均减弱【3J,这是频率统计(即我们通常所说的经典统计学)建立模型的一个弱点,其主要的原因是未考虑模型本身的不确定性(modeluncertainty). 当用回归模型或广义线性模型对所收集的数据建立模型时,模型本身的不确定性可能很大【5],忽略模型本身的不确定性而仅仅以单一模型的结果进行感兴趣量(quantitiesofinterest)的推断,一方面会低估感兴趣量的不确定性,高估结果,导致结果的适用范围 (coverge)要比研究中指定的范围(statedcoveragelev— e1)要窄.7j,另一方面会比正常情况下更趋向于拒绝无效假设产生误导性结果[引.本文以二值应变量为例介绍考虑了模型本身不确定性的具有较高预测能力的Bayesian模型平均法(Bayesianmodelaveraging,简称BMA),然后对实际资料进行了分析,阐明了其优越性. 原理与方法 1.Bayesian模型平均法的基本原理对于应变量为0/1变量的资料,通常是使用logis— tic回归模型进行分析.logistic回归模型通常可以表示为:log()+置x,Y是0/1变量,X (i=1,2,…,n)是自变量,(i=1,2,…,n)是回归系数,exp()即OR值. 频率统计中logistic回归模型建模方法(如:向前变量筛选法,向后变量筛选法,逐步变量筛选法等)都忽略了模型本身的不确定性,而Bayesian模型平均法则是一种基于Bayesian基本原理的将模型本身的不确定性考虑在内的统计分析方法[.9Ilo1,它综合考虑了模型及参数的先验信息和样本提供的信息,其分析更具有科学性. 假设△是我们研究感兴趣的量,本文指的是OR 值或,D是我们调查所得的数据,M={M一,M} 代表所有可能的模型组成的模型空间,而哪一个模型是最佳模型事先并不知道,即模型本身的不确定性. 通常情况下,可以考虑的模型数量是很大的,例如:lo— gistic回归模型中如果有P个自变量,那么在不考虑交互作用的情况下可以考虑的模型数量为2户.根据 Bayesian模型平均法的理论,△的后验分布为: P(AID)=gt;P(AIM,D)P(MID) = 1 (i=1,2,3,…n)(1) 其中,P(AIM,D)是在给定数据D和模型M的条件下△的后验分布;P(M/D)是在给定数据D的情况下M为最优模型的概率.从方程(1)可以看出,△的后验分布实际上是以后验模型概率P(M/D)为权重,对所有模型的后验分布进行加权的一个平均值. 在(1)中,假定M为最优模型的情况下,△的预 *国家自然科学基金重大项目,十五,国家科技攻关项目测子布为: :.p(AIM):fp(AMf,D)P(flIMi,△通讯作者:姜庆五,qⅥ巧iang@,021～j D)d8,=(flo,1,…,),为模型M回