- 1、本文档共31页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第九讲:分类模型
2 / 32
本讲将介绍分类模型。对于二分类模型,我们将介绍逻辑回 归(logistic regression)和Fisher线性判别分析两种分类算法;对 于多分类模型,我们将简单介绍Spss中的多分类线性判别分 析和多分类逻辑回归的操作步骤。
水果分类的例子
根据水果的属性,判断该水果的种类。
mass: 水果重量 width: 水果的宽度 height: 水果的高度
color_score: 水果的颜色数值,范围0‐1 fruit_name:水果类别
前19个样本是苹果 后19个样本是橙子
用这38个样本预测后四个样本对应的水果种类。
3 / 32
数据预处理:生成虚拟变量
4 / 32
逻辑回归logistic regression
5 / 32
类型
模型
Y的特点
例子
线性回归
OLS、GLS(最小二乘)
连续数值型变量
GDP、产量、收入
0‐1回归
logistic回归
二值变量(0‐1)
是否违约、是否得病
定序回归
probit定序回归
定序变量
等级评定(优良差)
计数回归
泊松回归(泊松分布)
计数变量
每分钟车流量
生存回归
Cox等比例风险回归
生存变量(截断数据)
企业、产品的寿命
对于因变量为分类变量的情况,我们可以使用逻辑回归进行处理。 把y看成事件发生的概率,y≤0.5表示发生;y€0.5表示不发生
线性概率模型
线性概率模型(Linear Probability Model,简记LPM)
直接用原来的回归模型进行回归。
6 / 32
两点分布(伯努利分布)
事件
1
0
概率
p
1-p
7 / 32
连接函数的取法
由于后者有解析表达式(而标准正态分布的cdf没有),所以计算logistic模型比
probit模型更为方便。
8 / 32
函数图像对比
f1=@(x) normcdf(x); % 标准正态分布的累积密度函数
fplot(f1, [-4,4]); % 在-4到4上画出匿名函数的图形
hold on; grid on;
f2=@(x) exp(x)/(1+exp(x));
fplot(f2, [-4,4]);
legend(标准正态分布的cdf,sigmoid函数,location,SouthEast)
probit_logistic_figure.m
9 / 32
怎么求解?
逻辑回归的推导:/video/a?p=45
极大使然估计:大家可参考概率论与数理统计的教材,或有哪些信誉好的足球投注网站相应视频学习
10 / 32
怎么用于分类?
11 / 32
Spss求解逻辑回归
12 / 32
预测成功率
19个苹果样本中,预测出来为苹果的有14个,预测出来的正确率为73.7%;
19个橙子样本中,预测出来为橙子的有15个,预测出来的正确率为78.9%;
对于整个样本,逻辑回归的预测成功率为76.3%.
13 / 32
逻辑回归系数表
注意:上面表格中的回归系数保留了小数点后三位,可点进去看更加精确的数据。
14 / 32
表格中新添的两列解读
15 / 32
逐步回归的设置
向前(向后)逐步回归可选择的统计量有所区别。 进入(或者除去)自变量的显著性水平可以自己调节。
16 / 32
假如自变量有分类变量怎么办?
两种方法
先创建虚拟变量,然后删除任意一列以排除完全多重共线性的影响;
直接点击分类,然后定义分类协变量,Spss会自动帮我们生成。
(如果没有生成虚拟变量这个选项,则说明SPSS没有安装到默认位置)
17 / 32
预测结果较差怎么办?
可在logistic回归模型中加入平方项、交互项等。
18 / 32
加入了平方项后的结果
19 / 32
过拟合现象
虽然预测能力提高了,但是容易发生过拟合的现象。
对于样本数据的预测非常好,但是对于样本外 的数据的预测效果可能会很差。
(是不是和龙格现象有点相似)
20 / 32
如何确定合适的模型
21 / 32
把数据分为训练组和测试组,用训练组的数据来估计出模 型,再用测试组的数据来进行测试。(训练组和测试组的比 例一般设置为80%和20%)
已知分类结果的水果ID为1‐38,前19个为苹果,后19个为橙子。 每类水果中随机抽出3个ID作为测试组,剩下的16个ID作为训练组。
(比如:17‐19、36‐38这六个样本作为测试组)
比较设置不同的自变量后的模型对于测试组的预测效果。
(注意:为了消除偶然性的影响,可以对上述步骤多重复几次,最 终对每个模型求一个平均的准确率,这个步骤称为交叉验证。)
Fisher线性判别分析
详细证明和求解步骤:
文档评论(0)