第8章:Logistic回归分析.pptVIP

第8章:Logistic回归分析.ppt

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共67页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

上表中x3(性别)、x1(年龄)、x2(月收入)是3个自变量,Wals是回归系数检验的统计量值:Sig是Wald检验的显著性概率。可以看到,x2(月收入)不显著。采用“进入”回归,输出结果见下表:可以看到,x1(年龄)、x3(性别)两个自变量都是显著的,因而最终的回归方程为:根据以上方程式可知:⑴年龄越高乘车的比例也越高;⑵女性乘公共汽车的比例高于男性。【例8.3】研究银行客户的贷款拖欠问题。通过分析银行掌握的一些客户资料和交易信息,推断指定客户的预期信誉。数据格式如下:本例数据集中的前700个案例是先前申请过贷款的用户,将利用其中的一个随机样本拟合一个二元逻辑回归模型,然后用拟合的模型对后150名预期用户进行信誉分类。因变量为是否拖欠(default),取值为0(No)时,表示没有拖欠贷款;取值为1(Yes)时,表示有拖欠贷款。⑴抽取分析样本①指定随机种子。依次单击“转换→随机数字生成器……”命令,打开生成随机数的设置界面。输9191972②计算筛选变量。依次单击“转换→计算变量……”命令。在“目标变量”处输入变量名“validate”;在“数字表达式”编辑框输入rv.bernoulli(0.7)。单击左下角的“如果”并输入Missing(default)=0⑵变量设置将是否拖欠变量(default)作为因变量选入“因变量”框,将从年龄至其他债务8个变量作为协变量选入“协变量”列表框。选中“向前:LR”,单击“validate”进入“选择变量”框,单击“规则”,选中“等于”选项,输入1。⑶分类变量设置在变量列表中选中教育水平变量,将其作为分类变量。⑷保存设置勾选:“概率”、“学生化”、“Cook距离”和“包含协方差矩阵”复选框。⑸选项设置勾选:“分类图”和“Hosmer-Lemeshow拟合度”复选框。单击“确定”,系统输出以下结果:上表中CoxandSnellR方和NagelkerkeR方两个统计量取代了线性回归中的R方统计量。本例中他们的取值分别为0.281和0.417,只看这一点,模型拟合的并不理想。这两个统计量一般用于不同模型之间的比较,R方值越大的模型,拟合的效果越好。Hosmer和Lemeshow检验表格的原假设为:模型能够很好拟合数据。从软件运行结果看:显著性检验的Sig=0.855结论:接受原假设,认为模型能够很好拟合数据。Hosmer和Lemeshow检验的随机性表格根据目标变量的预测概率,把结果分为大致相等的10个组。“总计”列中是每组的观测数,由于预测值相等的观测被分到一起,所以各组的观测数不一定相同。此表直观地反映了模型预测的效果,可以看出各组的观测值和预测值大致相同,所以模型的拟合效果不错。上表给出了观测值和预测值的列联表,预测概率大于0.5,预测为Yes;反之预测为No。对于最终模型,建模用的124个拖欠用户中有57个判断正确,正确率为46.0%;建模用的375个无拖欠用户中有352个判断正确,正确率为93.9%;总的回判正确率为82.0%,这说明模型的预测效果不错,尤其是对那些无拖欠的用户的预测。上表中Wald统计量的Sig值全部小于0.05,说明参数估计值都显著地不为0。利用该模型,就可以对150名预期用户进行信誉分类。Exp(B)表示在其它情况不变的条件下,某个自变量变动1个单位而引起的发生比Odd的变化率。该图为预测概率的直方图。横轴为对拖欠贷款概率的预测概率值,纵轴为观测的频数。符号Y代表拖欠,N代表不拖欠。如果模型对原数据成功进行了模拟,则发生拖欠贷款的观测应分布在图形的右侧,其它观测应分布在图形的左侧。本例总体来看,模型的拟合效果不错。该图为学生化残差的平方对预测概率的散点图。图中纵轴取值较大的点表示模型对这些点的拟合效果较差。由低到高的曲线代表的是因变量取0的观测的残差的变化,说明这类观测的预测概率越大,拟合效果越差。该图为Cook距离对预测概率的散点图。图中有较少的几个奇异值,它们的Cook值都很大,可能影响了分析,可以进一步对它们进行单独研究。第二节无序多分类Logistic回归一、模型简介

文档评论(0)

176****7940 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档