网站大量收购独家精品文档,联系QQ:2885784924

数模 第9讲.分类模型.pptx

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第九讲:分类模型 2 / 32 本讲将介绍分类模型。对于二分类模型,我们将介绍逻辑回 归(logistic regression)和Fisher线性判别分析两种分类算法;对 于多分类模型,我们将简单介绍Spss中的多分类线性判别分 析和多分类逻辑回归的操作步骤。 水果分类的例子 根据水果的属性,判断该水果的种类。 mass: 水果重量 width: 水果的宽度 height: 水果的高度 color_score: 水果的颜色数值,范围0‐1 fruit_name:水果类别 前19个样本是苹果 后19个样本是橙子 用这38个样本预测后四个样本对应的水果种类。 3 / 32 数据预处理:生成虚拟变量 4 / 32 逻辑回归logistic regression 5 / 32 类型 模型 Y的特点 例子 线性回归 OLS、GLS(最小二乘) 连续数值型变量 GDP、产量、收入 0‐1回归 logistic回归 二值变量(0‐1) 是否违约、是否得病 定序回归 probit定序回归 定序变量 等级评定(优良差) 计数回归 泊松回归(泊松分布) 计数变量 每分钟车流量 生存回归 Cox等比例风险回归 生存变量(截断数据) 企业、产品的寿命 对于因变量为分类变量的情况,我们可以使用逻辑回归进行处理。 把y看成事件发生的概率,y≤0.5表示发生;y€0.5表示不发生 线性概率模型 线性概率模型(Linear Probability Model,简记LPM) 直接用原来的回归模型进行回归。 6 / 32 两点分布(伯努利分布) 事件 1 0 概率 p 1-p 7 / 32 连接函数的取法 由于后者有解析表达式(而标准正态分布的cdf没有),所以计算logistic模型比 probit模型更为方便。 8 / 32 函数图像对比 f1=@(x) normcdf(x); % 标准正态分布的累积密度函数 fplot(f1, [-4,4]); % 在-4到4上画出匿名函数的图形 hold on; grid on; f2=@(x) exp(x)/(1+exp(x)); fplot(f2, [-4,4]); legend(标准正态分布的cdf,sigmoid函数,location,SouthEast) probit_logistic_figure.m 9 / 32 怎么求解? 逻辑回归的推导:/video/a?p=45 极大使然估计:大家可参考概率论与数理统计的教材,或有哪些信誉好的足球投注网站相应视频学习 10 / 32 怎么用于分类? 11 / 32 Spss求解逻辑回归 12 / 32 预测成功率 19个苹果样本中,预测出来为苹果的有14个,预测出来的正确率为73.7%; 19个橙子样本中,预测出来为橙子的有15个,预测出来的正确率为78.9%; 对于整个样本,逻辑回归的预测成功率为76.3%. 13 / 32 逻辑回归系数表 注意:上面表格中的回归系数保留了小数点后三位,可点进去看更加精确的数据。 14 / 32 表格中新添的两列解读 15 / 32 逐步回归的设置 向前(向后)逐步回归可选择的统计量有所区别。 进入(或者除去)自变量的显著性水平可以自己调节。 16 / 32 假如自变量有分类变量怎么办? 两种方法 先创建虚拟变量,然后删除任意一列以排除完全多重共线性的影响; 直接点击分类,然后定义分类协变量,Spss会自动帮我们生成。 (如果没有生成虚拟变量这个选项,则说明SPSS没有安装到默认位置) 17 / 32 预测结果较差怎么办? 可在logistic回归模型中加入平方项、交互项等。 18 / 32 加入了平方项后的结果 19 / 32 过拟合现象 虽然预测能力提高了,但是容易发生过拟合的现象。 对于样本数据的预测非常好,但是对于样本外 的数据的预测效果可能会很差。 (是不是和龙格现象有点相似) 20 / 32 如何确定合适的模型 21 / 32 把数据分为训练组和测试组,用训练组的数据来估计出模 型,再用测试组的数据来进行测试。(训练组和测试组的比 例一般设置为80%和20%) 已知分类结果的水果ID为1‐38,前19个为苹果,后19个为橙子。 每类水果中随机抽出3个ID作为测试组,剩下的16个ID作为训练组。 (比如:17‐19、36‐38这六个样本作为测试组) 比较设置不同的自变量后的模型对于测试组的预测效果。 (注意:为了消除偶然性的影响,可以对上述步骤多重复几次,最 终对每个模型求一个平均的准确率,这个步骤称为交叉验证。) Fisher线性判别分析 详细证明和求解步骤:

文档评论(0)

好文档制作 + 关注
实名认证
服务提供商

医学PPT制作等, 文档批量转化等,其他各类高校PPT制作。

1亿VIP精品文档

相关文档