- 1、本文档共40页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学-思想方法与应用(袁卫等)第八章相关和回归分析
8.6 虚拟变量:自变量中有定性变量的回归 注意,哑元的各个参数a1, a2, a3本身只有相对意义,无法三个都估计,只能够在有约束条件下才能够得到估计。约束条件可以有很多选择,一种默认的条件是把一个参数设为0,比如a3=0,这样和它有相对意义的a1和a2就可以估计出来了。对于例7.1得到 对b0, b1, a1, a2, a3的估计分别为28.708, 0.688, -11.066, -4.679, 0。 8.6 虚拟变量:logistic回归 但是如果因变量为取两个值的定性变量,前面介绍的回归模型就无法解决了。 我们通过例子来介绍另一种回归,即Logistic回归(logistic regression)。 8.6 虚拟变量:logistic回归 这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.txt)。这里年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而变量观点则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量。 8.6 虚拟变量:logistic回归 想要知道的是年龄和性别对观点有没有影响,有什么样的影响,以及能否用统计模型表示出这个关系。 年龄和观点的散点图(左)和性别与观点的条形图; 8.6 虚拟变量:logistic回归 对此,人们通常会考虑下面的模型(称为logistic回归模型) 为了循序渐近,先拟合没有性别作为自变量(只有年龄x)的模型 8.6 虚拟变量:logistic回归 很容易得到b0和b1的估计分别为2.381和-0.069。拟合的模型为 8.6 虚拟变量:logistic回归 下面再加上性别变量进行拟合,得到对b0, b1和a0, a1的估计(同样事先确定为a1=0)分别为1.722, -0.072, 1.778, 0。对于女性和男性,该拟合模型分别可以表示为 企业风险管理 * 统计学:思想、方法与应用 袁卫 刘超 第8章 相关和回归分析 8.1 两个变量间是什么关系 8.2 两个变量间的关系强度 8.3 回归分析 8.4 总体中的关系 8.5 多元回归分析 8.6 虚拟变量 学习目标 了解相关分析,能计算和解释相关系数与判定系数; 了解回归分析方法的统计思想; 能对回归模型进行参数估计和有关假设检验; 相关理论在统计学软件中的应用; 相应统计分析结果的解读。 对于现实世界,不仅要知其然,而且要知其所以然。 发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。 一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。 假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量(X也可能是若干变量组成的向量),则需要的是建立一个函数关系Y=f(X)。 这里Y称为因变量或响应变量(dependent variable, response variable),而X称为自变量,也称为解释变量或协变量(independent variable, explanatory variable, covariate)。 建立这种关系的过程就叫做回归(regression)。 一旦建立了回归模型,除了对变量的关系有了进一步的定量理解之外,还可以利用模型(函数)通过自变量对因变量做预测(prediction)。 这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它并不一定涉及时间先后。 8.1 两个变量间是什么关系 表8.1 偷税识别中的销售收入和工人工资总额 企业 销售收入(万元) 工人工资总额(万元) 1 271.5 76.1 2 155.1 45.6 3 318.2 87.5 4 923.3 253.9 5 202.6 60.5 6 443.3 129.2 7 1325.5 371 8 648.2 194.5 9 553.6 155 10 337.9 98.4 8.1 两个变量间是什么关系 从表8.1出发,我们能在多大程度上回答销售收入和工资有怎样的关系这个问题呢? 大致地看一下数据,我们发现高销售收入的企业的工资总额也较高,而低销售收入的企业的工资总额则较低,这两个变量看上去是相关的。 但要得到数据包含的详细信息——例如,一家企业如果销售收入是另一家企业的两倍,其工资是否也为另一家企业的两倍呢——我们要利用回归分析和相关分析。 8.1 两个变量间是什么关系 怎样才能发现两个变量有没有关系呢? 最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图;每一组数据表示了两个变量x和y的样本。 不相关 正线性相关 负线性相关 相关但非线性相关 8.1.1散点图 散点图8.1表明,一家企业中销售收入越高,工人工资
文档评论(0)