- 1、本文档共36页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
logistic回归分析
logistic回归分析 卫生统计学教研室 陆健 副教授 * 表1 吸烟、饮酒与食管癌关系的病例对照调查资料 表1 吸烟、饮酒与食管癌关系的病例对照调查资料(收集资料的形式) 分类资料的影响因素分析方法 如果采用线性回归分析,应变量不满足条件,预测值会超出0和1的范围。 如果采用单变量的?2检验,则必然忽略其他自变量对应变量的影响。 如果采用Mantel-Haenszel分层分析,需要较大的样本量,而且自变量不能太多。 logistic回归能较好地解决上述问题。 logistic回归模型 应变量Y是一个二值变量,取值为 自变量X1,X2,……,Xm。 P表示在m个自变量作用下事件发生的概率。 logistic回归模型 logistic回归模型 logit变换 事件发生概率与未发生概率之比的自然对数,称为P的logit变换,记作logit(P)。 概率P的取值范围在0~1之间,而logit(P)取值是没有界限的。 logit变换 回归模型中参数的意义 ?0(常数项):所有影响因素均为 0 时(记作X=0),个体发生事件概率与不发生事件的概率之比的自然对数值。 ?j 的含义:某因素因素 Xj 改变一个单位时,个体发生事件概率与不发生事件的概率之比的自然对数变化值。 优势比(odds ratio,OR) 优势(odds)是指某影响因素控制在某种水平时,事件发生率与事件不发生率的比值,即P/(1-P)。 某影响因素的两个不同水平的优势的比值称为优势比,如某影响因素的一个水平为c1,另一个水平为c0,则这两个水平的优势比为: 优势比(odds ratio,OR) OR表示影响因素对事件发生的影响方向和影响能力大小。 OR1表示该因素取值越大,事件发生的概率越大,又称危险因素。 OR1表示该因素取值越大,事件发生的概率越小,又称保护因素。 OR=1表示该因素与事件的发生无关。 优势比(odds ratio,OR) 优势比(odds ratio,OR) OR与? 的关系 ? = 0,OR = 1,影响因素与事件的发生无关。 ? 0,OR 1,影响因素的取值越大,事件的发生的概率越大。 ? 0,OR 1,影响因素的取值越大,事件的发生的概率越小。 logistic回归模型的参数估计 通常采用最大似然估计(maximum likeli-hood estimate,MLE)估计回归系数?,同时得到回归系数的标准误Sb。 根据最大似然原理,在一次抽样中获得现有样本的概率应该最大。即似然函数取值最大。 计算可以通过统计软件来完成。 logistic回归模型的参数估计 根据计算所得的bj计算OR值。 OR值的可信区间:可以利用bj的抽样分布来估计,在样本含量较大的情况下,近似服从正态分布。当自变量只有两个水平时,可采用下列公式计算。 logistic回归模型的参数估计 logistic回归模型的假设检验 logistic回归模型的假设检验方法 似然比检验的基本思想 似然比检验(例16-1) Wald检验(例16-1) 变量筛选 表2 冠心病危险因素的病例对照调查资料 表3 冠心病危险因素的赋值 变量筛选后的模型 结论 年龄越大,有高血脂史,高动物脂肪摄入量以及A型性格的人,比较容易患冠心病。 根据OR值或标准化回归系数可以判断出,动物脂肪摄入量高对冠心病的影响最大,其次为A型性格和有高血脂史,最后为年龄因素。 标准化回归系数: 条件logistic回归 根据病例的具体情况,安排某些条件相同的个体作为对照。 可以是1:1对照,也可以1个病例选择多个对照,称为1:M对照(M ≤3)。 分析过程与非条件logistic回归相同。 条件logistic回归与非条件logistic回归的区别是没有常数项。 logistic回归的应用 流行病学危险因素分析 病例对照研究中探索疾病的发病原因; 队列研究中验证危险因素的作用大小。 临床试验数据分析 当评价指标为分类数据,而且有其他影响评价指标的影响因素(年龄、病情、病种等)存在时。 logistic回归的应用 分析药物和毒物的剂量反应 计算半数效量(如ED50); 考察不同药物的交互作用。 预测和判别 根据个体的特征,判断个体发生某事件的概率; 判断个体属于的类型。 logistic回归应用的注意事项 变量取值形式 事件变量的取值:一般发生为1,未发生为0,如果发生为0,未发生为1,则模型中回归系数绝对值不变,但符号相反。 自变量可以是二分类变量、有序变量、多分类变量、连续变量。 logistic回归应用的注意事项 连续变量一般需转换为等级变量,否则实际意义不大。 如年龄每增加1岁的优势比。 等级变量取值 认为变化每个等级的优势比相近,则取秩 认为变化每个等级的优势比不同,则应转换为哑变量分
文档评论(0)