Logistic模型.ppt

下载文档 降价啦

5
0
约3.06千字
约 30页
2017-05-26 发布于湖北
举报
版权申诉
保障服务

Logistic模型.ppt

1、本文档共30页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Logistic模型课案

二分类Logistic回归模型二分类变量 Logistic中文意思为“逻辑”，但是这里，并不是逻辑的意思，而是通过logit变换来命名的。在很多场合下都能碰到反应变量为二分类的资料，如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。这种值为0/1的二值品质型变量，我们称其为二分类变量。 Logit 变换 Logit 变换以前用于人口学领域,1970 年被Cox引入来解决曲线直线化问题。通常把出现某种结果的概率与不出现的概率之比称为比值odds ，即odds＝，取其对数λ＝ln（odds）＝这就是 logit变换。 Logistic回归二元logistic回归是指因变量为二分类变量的回归分析，目标概率的取值会在0~1之间，但是回归方程的因变量取值却落在实数集当中，这个是不能够接受的，所以，可以先将目标概率做 Logit变换，这样它的取值区间变成了整个实数集，采用这种处理方法的回归分析，就是Logistic回归。通过大量的分析实践，发现 Logistic回归模型可以很好地满足对分类数据的建模需求，因此目前它已经成为了分类因变量的标准建模方法。原理设因变量为y, 其中“1” 代表事件发生，“0”代表事件未发生，影响y的 n个自变量分为、、 ··· ，记事件发生的条件概率为 P，那么，则事件未发生的概理为 1-P。涉及到的模型、统计量二项Logistic回归模型回归系数显著性检验拟合优度检验（1）Cox-Snell 统计量（2）Nagelkerke 统计量错判矩阵总体正确率为和列联表区别对于分类资料的分析，当要考察的影响因素较少，且也为分类变量时，分析者常用列联表的形式对这种资料进行整理，并使用卡方检验来进行分析。局限性：1、无法描述其作用大小及方向，更不能考察各因素间是否存在交互作用； 2、该方法对样本含量的要求较大，当控制的分层因素较多时，单元格被划分的越来越细，列联表的格子中频数可能很小，将导致检验结果的不可靠。 3、卡方检验无法对连续性自变量的影响进行分析，而这将大大限制其应用范围和最小二乘法区别（１）取值区间：上述模型进行预报的范围为整个实数集，而模型左边的取值范围为０≤ Ｐ≤ １，二者并不相符。模型本身不能保证在自变量的各种组合下，因变量的估计值仍限制在０～１内。（２）曲线关联：根据大量的观察，反应变量Ｐ与自变量的关系通常不是直线关系，而是Ｓ型曲线关系。显然，线性关联是线性回归中至关重要的一个前提假设，而在上述模型中这一假设是明显无法满足的。二分类 Logistic 回归对资料的要求反应变量为二分类的分类变量或是某事件的发生率自变量与 Lgit(P)之间为线性关系残差合计为０，且服从二项分布。各观测间相互独立。案例：研究银行客户贷款是否违约的问题步骤一：导入数据所用软件：SPSS Statistics 17.0 步骤二：生成一个变量（validate) 选择 “转换”—“计算变量” 命令在数字表达式框中，输入公式：rv.bernoulli（0.7）这意思为：返回概率为0.7的bernoulli分布随机值如果在0.7的概率下能够成功，那么就为1，失败的话，就为0 步骤三：剔除缺失值用missing”函数的时候，如果“违约”变量中，确实存在缺失值，它的返回值应该为“1”或者为“true，为了剔除“缺失值”所以，结果必须等于“0“ 步骤四：选择所分析变量将“是否曾经违约”拖入“因变量”选框，分别将其他8个变量拖入“协变量”选框，“validate 拖入选择变量”框内在方法中，选择向前：LR 点击“规则” 向前：LR ：向前选择（似然比），逐步选择法，其中进入检验是基于得分统计变量的显著性，移去检验是基于在最大局部似然估计的似然比统计的概率步骤五：生成虚拟变量设置validate 值为1，表示我们只将取值为1的记录纳入模型建立过程参考类别选择：“最后一个” 在对比中选择“指示符” 步骤六：选择分析选项在“预测值中选择”概率在“影响”中选择“Cook距离” 在“残差”中选择“学生化” 点击继续，返回，再点击“选项”按钮在“统计图和表”中选择分类图和“Hosmer-Lemeshow拟合度“ 在“输出”中选择在每个步骤中 Hosmer-Lemeshow”拟合度：此