- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
统计方法5回归分析
前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的假设干有关变量的一组数据,寻找因变量与〔一个或几个〕自变量之间的一个函数,使这个函数对那组数据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗?
从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些系数,只是它们的一个〔点〕估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也应该对模型的误差进行分析,对拟合的优劣给出评价。从建模的角度说,回归分析就是对拟合问题作的统计分析。
具体地说,回归分析在一组数据的根底上研究这样几个问题:
〔=1\*romani〕建立因变量与自变量之间的回归模型〔经验公式〕;
〔=2\*romanii〕对回归模型的可信度进行检验;
〔=3\*romaniii〕判断每个自变量对的影响是否显著;
〔=4\*romaniv〕诊断回归模型是否适合这组数据;
〔=5\*romanv〕利用回归模型对进行预报或控制。
§1多元线性回归
回归分析中最简单的形式是,均为标量,为回归系数,称一元线性回归。它的一个自然推广是为多元变量,形如
(1)
,或者更一般地
〔2〕
其中,是函数。这里对回归系数是线性的,称为多元线性回归。不难看出,对自变量作变量代换,就可将〔2〕化为〔1〕的形式,所以下面以〔1〕为多元线性回归的标准型。
1.1模型
在回归分析中自变量是影响因变量的主要因素,是人们能控制或能观察的,而还受到随机因素的干扰,可以合理地假设这种干扰服从零均值的正态分布,于是模型记作
〔3〕
其中未知。现得到个独立观测数据,,由〔3〕得
〔4〕
记
,〔5〕
,
〔4〕表为
〔6〕
1.2参数估计
用最小二乘法估计模型〔3〕中的参数。
由〔4〕式这组数据的误差平方和为
〔7〕
求使最小,得到的最小二乘估计,记作,可以推出
〔8〕
将代回原模型得到的估计值
〔9〕
而这组数据的拟合值为,拟合误差称为残差,可作为随机误差的估计,而
〔10〕
为残差平方和〔或剩余平方和〕,即。
1.3统计分析
不加证明地给出以下结果:
〔=1\*romani〕是的线性无偏最小方差估计。指的是是的线性函数;的期望等于;在的线性无偏估计中,的方差最小。
〔=2\*romanii〕服从正态分布
〔11〕
〔=3\*romaniii〕对残差平方和,,且
〔12〕
由此得到的无偏估计
〔13〕
是剩余方差〔残差的方差〕,称为剩余标准差。
〔=4\*romaniv〕对总平方和进行分解,有
,〔14〕
其中是由〔10〕定义的残差平方和,反映随机误差对的影响,称为回归平方和,反映自变量对的影响。
1.4回归模型的假设检验
因变量与自变量之间是否存在如模型〔1〕所示的线性关系是需要检验的,显然,如果所有的都很小,与的线性关系就不明显,所以可令原假设为
当成立时由分解式〔14〕定义的满足
(15)
在显著性水平下有分位数,假设,接受;否那么,拒绝。
注意拒绝只说明与的线性关系不明显,可能存在非线性关系,如平方关系。
还有一些衡量与相关程
文档评论(0)