网站大量收购独家精品文档,联系QQ:2885784924

Logistic模型.ppt

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Logistic模型课案

二分类Logistic回归模型 二分类变量 Logistic中文意思为“逻辑”,但是这里,并不是逻辑的意思,而是通过logit变换来命名的。 在很多场合下都能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。 这种值为0/1的二值品质型变量,我们称其为二分类变量。 Logit 变换 Logit 变换以前用于人口学领域,1970 年被Cox引入来解决曲线直线化问题。 通常把出现某种结果的概率与不出现的概率之比称为比值odds ,即odds= ,取其对数λ=ln(odds)= 这就是 logit变换。 Logistic回归 二元logistic回归是指因变量为二分类变量的回归分析,目标概率的取值会在0~1之间,但是回归方程的因变量取值却落在实数集当中,这个是不能够接受的,所以,可以先将目标概率做 Logit变换,这样它的取值区间变成了整个实数集,采用这种处理方法的回归分析,就是Logistic回归。 通过大量的分析实践,发现 Logistic回归模型可以很好地满足对分类数据的建模需求,因此目前它已经成为了分类因变量的标准建模方法。 原理 设因变量为y, 其中“1” 代表事件发生,“0”代表事件未发生,影响y的 n个自变量分为 、 、 ··· ,记事件发生的条件概率为 P, 那么 , 则事件未发生的概理为 1-P。 涉及到的模型、统计量 二项Logistic回归模型 回归系数显著性检验 拟合优度检验 (1)Cox-Snell 统计量 (2)Nagelkerke 统计量 错判矩阵 总体正确率为 和列联表区别 对于分类资料的分析,当要考察的影响因素较少,且也为分类变量时,分析者常用列联表的形式对这种资料进行整理,并使用卡方检验来进行分析。 局限性:1、无法描述其作用大小及方向,更不能考察各因素间是否存在交互作用; 2、该方法对样本含量的要求较大,当控制的分层因素较多时,单元格被划分的越来越细,列联表的格子中频数可能很小,将导致检验结果的不可靠。 3、卡方检验无法对连续性自变量的影响进行分析, 而这将大大限制其应用范围 和最小二乘法区别 (1)取值区间:上述模型进行预报的范围为整个实数集,而模型左边的取值范围为 0≤ P≤ 1,二者并 不相符。模型本身不能保证在自变量的各种组合下,因变量的估计值仍限制在0~1内。 (2)曲线关联:根据大量的观察,反应变量P与自变量的关系通常不是直线关系,而是S型曲线关系。 显然,线性关联是线性回归中至关重要的一个前提假设,而在上述模型中这一假设是明显无法满足的。 二分类 Logistic 回归对资料的要求 反应变量为二分类的分类变量或是某事件的发生率 自变量与 Lgit(P)之间为线性关系 残差合计为 0,且服从二项分布。 各观测间相互独立。 案例:研究银行客户贷款是否违约的问题 步骤一:导入数据 所用软件:SPSS Statistics 17.0 步骤二:生成一个变量(validate) 选择 “转换”—“计算变量” 命令 在数字表达式框中,输入公式:rv.bernoulli(0.7) 这意思为:返回概率为0.7的bernoulli分布随机值如果在0.7的概率下能够成功,那么就为1,失败的话,就为0 步骤三:剔除缺失值 用missing”函数的时候,如果“违约”变量中,确实存在缺失值,它的返回值应该为“1”或者 为“true, 为了剔除“缺失值”所以,结果必须等于“0“ 步骤四:选择所分析变量 将“是否曾经违约”拖入“因变量”选框,分别将其他8个变量拖入“协变量”选框,“validate 拖入选择变量”框内 在方法中,选择 向前:LR 点击“规则” 向前:LR :向前选择(似然比),逐步选择法,其中进入检验是基于得分统计变量的显著性,移去检验是基于在最大局部似然估计的似然比统计的概率 步骤五:生成虚拟变量 设置validate 值为1,表示我们只将取值为1的记录纳入模型建立过程 参考类别选择:“最后一个” 在对比中选择“指示符” 步骤六:选择分析选项 在“预测值中选择”概率 在“影响”中选择“Cook距离” 在“残差”中选择“学生化” 点击继续,返回,再点击“选项”按钮 在“统计图和表”中选择分类图和“Hosmer-Lemeshow拟合度“ 在“输出”中选择在每个步骤中 Hosmer-Lemeshow”拟合度:此

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档