网站大量收购闲置独家精品文档,联系QQ:2885784924

第九讲 Modeler分类预测:logistic回归.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第九讲 Modeler分类预测:logistic回归

分类预测:Logistic回归 二项Logistic回归 ---问题提出 研究二项分类变量与其他变量之间的关系 例如:研究吸烟对是否得肺癌的影响,并以年龄和性别作为控制变量,特点: 被解释变量是二分类变量 解释变量有品质变量和定距变量 吸烟与肺癌之间并非一种线性关系 对二项分类的被解释变量可否直接采用一般多元线性回归分析方法? 结论:不可以 二项Logistic回归 当被解释变量为二项(0/1)分类变量时,被变量的取值范围和与自变量的关系问题: 根据回归模型的意义,可知: 一般回归模型下的被解释变量的取值范围是-∞~+∞ 这里,被解释变量的取值范围是0~1 一般回归分析建立模型,解释变量与P间的关系只能是线性的 二项Logistic回归 解决问题的方向 能否对概率P进行转换处理后,使其取值范围与一般线性回归模型吻合 对概率P应采用非线性转化处理 所有的转化都不应改变解释变量和被解释变量之间关系的方向 二项Logistic回归 ---理论上的处理 进行两步转换处理: 第一步,将P转换成Ω Ω称为发生比或相对风险 对P的转化是非线性的 Ω是P的单调增函数 发生比的取值范围:0~+∞ 进行两步转换处理: 第二步,Ω转换成lnΩ lnΩ称为Logit P Logit P与Ω仍呈增长(或下降)的一致性关系 Logit P的取值于-∞~+∞ 二项Logistic回归 ---理论上的处理 二项Logistic模型: 二项Logistic回归 ---理论上的处理 二项Logistic回归 P与自变量间是否为非线性关系: (0,1)型Sigmoid函数 神经网络节点 回归系数表示当其他自变量取值保持不变时,某自变量取值增加一个单位引起Logit P平均变化βi个单位 在模型的实际应用关心的是自变量变化引起事件发生概率P变化的程度 当自变量xi变化时,对概率P的影响程度是非线性的,不易直观理解 更注重自变量对发生比Ω的影响 二项Logistic回归 ---回归系数的含义 发生比Ω=P/(1-P),即某事件发生的概率与不发生的概率之比 利用发生比比率可以进行组之间风险的对比分析 例如,如果吸烟得肺癌的概率是0.25,不吸烟得肺癌得概率是0.10,则两组的发生比比率为: 吸烟的发生比是不吸烟的三倍,吸烟组得肺癌的风险高于不吸烟组 二项Logistic回归 ---发生比 如果被解释变量y(肺癌1=得/0=没),自变量x只有一个(x1吸烟1=吸烟/0=不吸烟),则logistic方程为: 吸烟与不吸烟组的方程分别是: 两组发生比的比率为: 可见,当解释变量是1/0二组时,两组间的发生比比率是回归方程相应回归系数的函数,它反映了当输入变量取不同值所导致的发生比的变化率 二项Logistic回归 ---发生比 如果被解释变量y(肺癌1=得/0=没),自变量x有三个(x1吸烟/x2年龄/x3性别),则logistic方程为: XA=(1,45,1)与XB=(0,45,1)的方程分别是: 两组发生比的比率为: 这里的主要目的是研究吸烟对肺癌的影响,因此年龄和性别是作为控制变量存在的,该发生比比率为调整的发生比比率,它与不包括控制变量在内的比率是不相等的。(也可将定距变量作观测变量) 二项Logistic回归 ---发生比 自变量对发生比Ω的影响 当其他解释变量保持不变而研究观测变量变化一个单位对Ω的影响时,可将新的发生比设为Ω*,则有发生比比率为: 即:当xi增加一个单位时,将引起发生比是原来的exp(βi)倍 二项Logistic回归 ---发生比 如果被解释变量y(肺癌1=得/0=没),自变量x有三个(x1吸烟/x2年龄/x3性别),并考虑吸烟与年龄和对性别的交互作用),则logistic方程为: XA=(1,45,1,1?45,1?1)与XB=(0,45,1,0?45,0?1)两组的发生比比率是: 这里涉及到了多个系数,以及控制变量的不同取值 二项Logistic回归 ---发生比 采用极大似然估计法进行参数估计:似然函数值 例如:通过样本数据对购买的比例?进行估计,其总体服从参数为?的二项分布。假设?只有0.2和0.6两个取值,则: 如果m=5,则 如果y=4,则?=0.6 以似然函数值达到最大时的参数值作为总体参数的估计值,似然函数值(Likelihood)在0至1间,反映了在所估计参数的总体中抽到特定样本的可能性行,越接近1越好 二项Logistic回归 ---参数的估计 似然函数 采用极大似然估计法进行参数估计:似然函数值 求似然函数值的对数,得到对数似然函数值(LL) 二项Logistic回归 ---模型的检验 对数似然函数值越大

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档