- 1、本文档共47页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二部分 线性回归(一) 一元线性回归 一、基本思想及参数的估计 问题的提出——必要性 通过协方差或相关系数证实变量之间存在关系,仅仅只是知道变量之间线性相关的性质——正(负)相关和相关程度的大小。 既然它们之间存在线性关系,接下来必须探求它们之间关系的表现形式是什么? 最好用数学表达式将这种关系尽可能准确、严谨的表示出来——y=a+bx+u——把它们之间的内在联系挖掘出来。也就是直线中的截距a=?;直线的斜率b=? 解决问题的思路——可能性 寻找变量之间直线关系的方法很多。于是,再接下来则是从众多方法中,寻找一种优良的方法,运用方法去求出线性模型——y=a+bx+u中的截距a=?;直线的斜率b=?正是是本章介绍的最小二乘法。 根据该方法所得,即表现变量之间线性关系的直线有些什么特性? 所得直线可靠吗?怎样衡量所得直线的可靠性? 最后才是如何运用所得规律——变量的线性关系? 最小二乘法产生的历史 最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(F.Gallton)——达尔文的表弟所创。 早年,道尔顿致力于化学和遗传学领域的研究。 他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。 最小二乘法的地位与作用 现在回归分析法已远非道尔顿的本意 已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。 后来,回归分析法从其方法的数学原理——误差平方和最小(平方即二乘)出发,改称为最小二乘法。 父亲们的身高与儿子们的身高之间关系的研究 1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式 下图是根据1078个家庭的调查所作的散点图(略图) “回归”一词的由来 从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下: 如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。 后人将此种方法普遍用于寻找变量之间的规律 最小二乘法的思路 1.为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值,才不至于以点概面(作到全面)。 2.Y与X之间是否是直线关系(协方差或相关系数)?若是,将用一条直线描述它们之间的关系。 3.在Y与X的散点图上画出直线的方法很多。 任务?——找出一条能够最好地描述Y与X(代表所有点)之间的直线。 4.什么是最好?—找出判断“最好”的原则。 最好指的是找一条直线使得这些点到该直线的纵向距离的和(平方和)最小。 三种距离 距离是度量实际值与拟合值 是否相符的有效手段 点到直线的距离——点到直线的垂直线的长度。 横向距离——点沿(平行)X轴方向到直线的距离。 纵向距离——点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。 这个差数以后称为误差——残差(剩余)。 最小二乘法的数学原理 纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。 数学推证过程 关于所得直线方程的结论 结论之一: 由(5)式,得 即拟合直线过y和x的平均数点。 结论之二:由(2)式,得 残差与自变量x的乘积和等于0,即两者不相关。 拟合直线的性质 1.估计残差和为零 2.Y的真实值和拟合值有共同的均值 3.估计残差与自变量不相关 4.估计残差与拟合值不相关 1.估计残差和为零(Residuals Sum to zero) 由(1)式直接得此结论无须再证明。并推出残差的平均数也等于零。 2.Y的真实值和拟合值有共同的均值 3.估计残差与自变量不相关 4.估计残差与拟合值不相关 关于回归直线性质的总结 实例 教材P92-94 例5.1 美国家庭收入与支付税收的关系 例5.2 5.3 男女学生数学分数与词汇分数的关系 例5.5及5.6 通过实例进一步理解一元回归线性模型的经济含义 二、一元线性回归模型的检验 (一)线性回归模型的基本假设(严格来说是针对普通最小二乘法) (二)参数估计量的性质(包括回归系数、随机误差项):线性、无偏性和有效性 (三)模型的检验,包括方程的显著性检验和变量的显著性检验。 (一)线性回归模型的基本假设 1、自变量(解释变量)是非随机的确定性的变量,而且彼此之间
文档评论(0)