岭回归解决多重共线性.doc

下载文档 降价啦

64
0
约1.25万字
约 9页
2019-04-19 发布于江西
举报
版权申诉
保障服务

岭回归解决多重共线性.doc

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

重庆大学硕士课程论文应用回归分析 PAGE 9 一、引言回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用，但是经典的最小二乘估计，必需满足一些假设条件，多重共线性就是其中的一种。实际上，解释变量间完全不相关的情形是非常少见的，大多数变量都在某种程度上存在着一定的共线性，而存在着共线性会给模型带来许多不确定性的结果。二、认识多重共线性（一）多重共线性的定义设回归模型如果矩阵的列向量存在一组不全为零的数使得, =1,2,…,则称其存在完全共线性,如果, =1,2,…,则称其存在近似的多重共线性。（二）多重共线性的后果 1.理论后果对于多元线性回归来讲，大多数学者都关注其估计精度不高，但是多重共线性不可能完全消除，而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果，在理论上称作“微数缺测性”，所以当样本容量很小的时候，多重共线性才是非常严重的。多重共线性的理论后果有以下几点：（1）保持OLS估计量的BLUE性质； (2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的情况。所以多重共线性并不是简单的自变量之间存在的相关性，也包括样本容量的大小问题。（3）近似的多重共线性中，OLS估计仍然是无偏估计。无偏性是一种多维样本或重复抽样的性质；如果X变量的取值固定情况下，反复对样本进行取样，并对每个样本计算OLS估计量，随着样本个数的增加，估计量的样本值的均值将收敛于真实值。（4）多重共线性是由于样本引起的。即使总体中每一个X之间都没有线性关系，但在具体取样时仍存在样本间的共线性。 2.现实后果（1）虽然存在多重共线性的情况下，得到的OLS估计是BLUE的，但有较大的方差和协方差，估计精度不高；（2）置信区间比原本宽，使得接受假设的概率更大；（3）统计量不显著；（4）拟合优度的平方会很大；（5）OLS估计量及其标准误对数据微小的变化也会很敏感。（三）多重共线性产生的原因 1.模型参数的选用不当，在我们建立模型时如果变量之间存在着高度的相关性，我们又没有进行处理建立的模型就有可能存在着共线性。 2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。例如当经济繁荣时，反映经济情况的指标有可能按着某种比例关系增长 3. 滞后变量。滞后变量的引入也会产生多重共线行，例如本期的消费水平除了受本期的收入影响之外，还有可能受前期的收入影响，建立模型时，本期的收入水平就有可能和前期的收入水平存在着共线性。 (四) 多重共线性的识别 1.直观的判断方法（1）在自变量的相关系数矩阵中，有某些自变量的相关系数值比较大。（2）回归系数的符号与专业知识或一般经验相反（3）对重要的自变量的回归系数进行t检验，其结果不显著，但是F检验确得到了显著的通过（4）如果增加一个变量或删除一个变量，回归系数的估计值发生了很大的变化（5）重要变量的回归系数置信区间明显过大 2.方差扩大因子法() 定义=其中是以为因变量时对其他自变量的复测定系数。一般认为如果最大的超过10，常常表示存在多重共线性。事实上=10这说明0.1即0.9。 3.特征根判定法根据矩阵行列式的性质，矩阵行列式的值等于其特征根的连乘积。因此，当行列式||≈0时，至少有一个特征根为零，反过来，可以证明矩阵至少有一个特征根近似为零时，X的列向量必存在多重共线性，同样也可证明有多少个特征根近似为零矩阵,就有多少个多重共线性。根据条件数, 其中为最大的特征根,为其他的特征根，通常认为010,没有多重共线性，10存在着多重共线性。（五）多重共线性的处理方法 1．增加样本容量当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本，而不存在于总体时，通过增加样本容量可以减少或是避免线性重合，但是在现实的生活中，由于受到各种条件的限制增加样本容量有时又是不现实的。 2．剔除法对于一些不重要的解释变量进行剔除，主要有向前法和后退法，逐步回归法。理论上这三种方法都是针对不相关的的数据而言的，在多重共线性很严重的情况下，结论的可靠性受到影响，在一些经济模型中，要求一些很重要变量必须包含在里面，这时如果贸然的删除就不符合现实的经济意义。 3．主成分法当自变量间有较强的线性相关性时，利用个变量的主成分，所具有的性质，如果他们是互不相关的，可由前个主成来建立回归模型。由原始变量的观测数据计算前个主成分的得分值，将其作为主成分的观测值，建立与主成分的回归模型即得回归方程。这时元降为元