贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例_精品.doc

贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例_精品.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例_精品

贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例 中国卫生统计2007年10月第24卷第5期 贝叶斯模型平均法的基本原理及其在 logistic回归中的应用实例* 复旦大学公共卫生学院流行病学教研室(2o0032)张志杰彭文祥周艺彪庄建林姜庆五 ? 467? 【提要】目的介绍Byesian模型平均法的基本原理,并对实际资料进行分析,指出该方法的优越性.方法以 Hosmer和Lemeshow研究低出生体重婴儿影响因素的队列研究为例,分别以Bayesian模型平均法和逐步logistic回归法选 择最佳模型,并分析比较二者的差异及原因.结果Bayesian模型平均法确定的l0个后验概率最大的模型的累积后验概 率仅为0.59,模型本身的不确定性是很大的,而逐步logistic回归法确定的最佳模型的后验概率(P(≠0ID)lt;0.032)要 远低于Bayesian模型平均法确定的最佳模型的后验概率(P(≠0fD)=0.12).从回归系数的估计值,标准误和P值比 较两种方法的结果发现.Bayesian模型平均法估计的精度较高,而逐步logistic回归法由于没有考虑模型本身的不确定性, 偏向于高估结果.结论BaYesian模型平均法考虑了模型本身的不确定性,其分析结果更可靠,在统计建模中具有较好的 应用前景. 【关键词】logistic回归模型;Bayesian模型平均法;模型不确定性;后验概率 通常的数据分析一般是先描述资料的基本特征, 然后指定某一个模型(如:logistic回归模型),通过两 阶段变量筛选法(two—stagemethod)¨J或逐步回归 法[]确定最佳模型,并在此基础上进行参数检验和可 信区间的计算及预测,然而由于数据的部分信息被用 于人为地指定某个特定模型而导致所建立模型的效能 与预测能力均减弱【3J,这是频率统计(即我们通常所 说的经典统计学)建立模型的一个弱点,其主要的原因 是未考虑模型本身的不确定性(modeluncertainty). 当用回归模型或广义线性模型对所收集的数据建立模 型时,模型本身的不确定性可能很大【5],忽略模型本 身的不确定性而仅仅以单一模型的结果进行感兴趣 量(quantitiesofinterest)的推断,一方面会低估感兴 趣量的不确定性,高估结果,导致结果的适用范围 (coverge)要比研究中指定的范围(statedcoveragelev— e1)要窄.7j,另一方面会比正常情况下更趋向于拒绝 无效假设产生误导性结果[引.本文以二值应变量为 例介绍考虑了模型本身不确定性的具有较高预测能力 的Bayesian模型平均法(Bayesianmodelaveraging,简 称BMA),然后对实际资料进行了分析,阐明了其优越 性. 原理与方法 1.Bayesian模型平均法的基本原理 对于应变量为0/1变量的资料,通常是使用logis— tic回归模型进行分析.logistic回归模型通常可以表 示为:log()+置x,Y是0/1变量,X (i=1,2,…,n)是自变量,(i=1,2,…,n)是回归系 数,exp()即OR值. 频率统计中logistic回归模型建模方法(如:向前 变量筛选法,向后变量筛选法,逐步变量筛选法等)都 忽略了模型本身的不确定性,而Bayesian模型平均法 则是一种基于Bayesian基本原理的将模型本身的不确 定性考虑在内的统计分析方法[.9Ilo1,它综合考虑了 模型及参数的先验信息和样本提供的信息,其分析更 具有科学性. 假设△是我们研究感兴趣的量,本文指的是OR 值或,D是我们调查所得的数据,M={M一,M} 代表所有可能的模型组成的模型空间,而哪一个模型 是最佳模型事先并不知道,即模型本身的不确定性. 通常情况下,可以考虑的模型数量是很大的,例如:lo— gistic回归模型中如果有P个自变量,那么在不考虑 交互作用的情况下可以考虑的模型数量为2户.根据 Bayesian模型平均法的理论,△的后验分布为: P(AID)=gt;P(AIM,D)P(MID) = 1 (i=1,2,3,…n)(1) 其中,P(AIM,D)是在给定数据D和模型M的条 件下△的后验分布;P(M/D)是在给定数据D的情 况下M为最优模型的概率.从方程(1)可以看出,△的 后验分布实际上是以后验模型概率P(M/D)为权 重,对所有模型的后验分布进行加权的一个平均值. 在(1)中,假定M为最优模型的情况下,△的预 *国家自然科学基金重大项目,十五,国家科技攻关项目测子布为: :.p(AIM):fp(AMf,D)P(flIMi,△通讯作者:姜庆五,qⅥ巧iang@,021~j D)d8,=(flo,1,…,),为模型M回

文档评论(0)

rovend + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档