- 1、本文档共42页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
chLogistic回归分析
第十九章 Logistic回归分析 重点掌握 解决什么问题 回归系数的流行病学意义 哑变量的设置 变量筛选的灵活性 多元线性回归回顾 1 模型的建立 ?=a+b1X1+…+bnXn 资料中要求: Y变量服从正态分布 X变量为可精确测量 资料的分类 危险度(risk):指发生某有害事件的概率。 常用总体的发病率(incidence of a disease),患病率(prevalence rate),死亡率(death rate)表示。 优势odds与优势比odds ratio 优势比odds ratio,OR 患者与非患者某因素优势的比值被称作优势比(比数比)。 OR=odds1/odds0 logistic回归主要内容 基本概念 模型的估计与假设检验 条件logistic 回归 logistic回归的应用 Logistic 回归的分析目的 当反应变量为定性变量(又称为 属性变量)如死亡,生存;发病,不发病时,对某一个特定人群调查某种疾病的发生与否(记作y=1为发生,y=0为不发生),与某些因素(记作x1,x2,…,xp )间的关系(暴露为1,非暴露为0)。 变量说明 Logistic回归的基本思想 应变量是分类的,利用线性模型显然不合适。 根据目的,使用如下关系式研究应变量与影响因素间的关系: logit变换 P发病的概率, 0≤P≤1。 Logistic函数的图形 logistic回归模型的几种形式 回归系数的解释 logistic回归中的系数?1,与OR的关系: ?=ln(OR) 回归系数的解释 例20-1参数估计与wald检验结果 基本原理: 极大似然法(Maximum likelihood, ML) 模型的假设检验与区间估计 似然比检验 Wald检验 回归系数的区间估计 1 似然比检验(likelihood test) 似然比检验是通过比较两个相嵌套模型的对数似然函数统计量G(又称Deviance)来进行的,其统计量为: G=GP-GK =-2ln(LP)+2ln(LK) G服从自由度为K-P的?2分布。 似然比检验 检验变量X1是否有统计学意义: 模型1:不考虑, -2lnL1=12827.236 模型2:考虑X , -2lnL2= 12301.503 G=-2lnL1-(-2lnL2) L为对数似然函数值 G= 12827.236 - 12301.503 =174.267, ?=1,P0.001 说明回归系数β具有统计学意义。 2 Wald检验 Wald检验实际上是比较估计回归系数与0的差别来进行的,其检验统计量为: Wald的?2检验是 z 的平方。 例20-1参数估计与wald检验结果 3 优势比的区间估计 回归系数的解释 等级变量:一般以最小等级或最大等级作为参考组,并按等级顺序依次取为0,1,2,…。此时,exp(?)表示X增加一个等级时的优势比, exp(k?)表示增加k个等级时的优势比。 连续性变量:表示增加1(个计量单位)时的优势比的对数。 多分类变量:哑变量(dummy variable) x=1时:x1=0, x2=0, x3=0 表示A型血 x=2时:x1=1, x2=0, x3=0 表示B型血 x=3时:x1=0, x2=1, x3=0 表示AB型血 x=4时:x1=0, x2=0, x3=1 表示O型血 exp(?1) 表示B与A比之OR; exp(? 2) 表示AB与A比之OR; exp(? 3) 表示O与A比之OR。 P 386 例20-2 逐步法 第三节 条件logistic回归(略) 配比设计资料 目的提高均衡性 配比的原则:相同,相近以及 病例对照比 1:1到1:4 1:m配比设计的资料格式 模型格式 由于模型假设自变量的作用在各个配比组相同,而截距是各配比组特有的,即当自变量为零时的基线风险。而且对自变量的解释无关所以该表达式不含截距项。 logistic回归模型的应用 筛选危险因素 校正混杂因素 预测发病概率 样本含量—大于自变量数的20倍,参数估计的偏差是可以接受的。 影响logistic回归模型可解释性的原因 资料的质量。 异常值。 样本含量太少,或考虑的变量太多。 应用条件不成立(Y,二项分布)。 自变量间的共线性。 暴露率极低或极高,甚至为0或1。常会导致回归系数估计无效。 回归方程 xnmp … xnm1 m 对照m n … … … … … … xn1p … xn11 1 对照1 n xn0p … xn01 0 病例 n ┇ ┇ ┇ ┇ ┇ ┇ x
文档评论(0)