、违背基本假设的问题:多重共线性、异方差和自相关.docVIP

、违背基本假设的问题:多重共线性、异方差和自相关.doc

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
、违背基本假设的问题:多重共线性、异方差和自相关

第5章、违背基本假设的问题: 多重共线性、异方差和自相关 回顾并再次记住最小二乘法(LS)的三个基本假设: y=X?+? Rank(X)=K ?|X~N(0,?2I) §1、多重共线性(multicollinearity) 1、含义及后果 1)完全的多重共线性 如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的ai,使得 a1x1+…+aKxK=0 即X的列向量之间存在线性相关。因此,有Rank(X)K,从而|X’X|=0,即b=(X’X)-1X’y不存在,OLS失效。也即违背了基本假设2。 例子: C=?1+?2nonlabor income +??3salary +?4income + ? 2)近似共线性 常见为近似共线性,即 a1x1+…+aKxK0 则有|X’X|0,那么(X’X)-1对角线元素较大。由于 , , 所以bk的方差将较大。 例子:Longley是著名例子。 2、检验方法 VIF法(方差膨胀因子法,variance inflation factor) 第j个解释变量的VIF定义为 此处是第j个解释变量对其他解释变量进行回归的确定系数。若接近于1,那么VIF数值将较大,说明第j个解释变量与其他解释变量之间存在线性关系。从而,可以用VIF来度量多重共线性的严重程度。当大于0.9,也就是VIF大于10时,认为自变量之间存在比较严重的多重共线性。 K个解释变量,就有K个VIF。可以计算K个VIF的平均值。若大于10,认为存在比较严重的多重共线性。 VIF方法直观,但是Eviews不能直接计算VIF的数值。需要逐个进行回归,较为麻烦。 相关系数矩阵 例子:对于longley数据。 在Eviews中,quick/group statistics/correlations,输入te year gnpd gnp arm,得到 TE YEAR GNPD GNP ARM TE 1.000000 0.971329 0.970899 0.983552 0.457307 YEAR 0.971329 1.000000 0.991149 0.995273 0.417245 GNPD 0.970899 0.991149 1.000000 0.991589 0.464744 GNP 0.983552 0.995273 0.991589 1.000000 0.446437 ARM 0.457307 0.417245 0.464744 0.446437 1.000000 相关系数矩阵的第一列给出了被解释变量与每一个解释变量之间的相关系数;度量了每一个解释变量对被解释变量的个别影响。除ARM之外,解释变量与被解释变量之间的相关系数都很大。 但是,从剩下的相关系数矩阵可以看到,变量之间的相关系数也很大。表明变量之间存在严重的多重共线性。 条件数(condition number) 首先计算X’X的最大和最小特征根,然后计算如下条件数 若大于20,则认为存在多重共线性。 3、处理方法 1)剔除法(推荐此方法) 方法:设法找出引起多重共线性的解释变量,并将之剔除在回归方程之外。 准则1:逐个引入解释变量,根据R2的变化决定是否引入新的解释变量。如果R2变化显著,那么应该引入,反之不引入。 准则2:剔除VIF最大的解释变量和不显著的解释变量。请试着计算每个解释变量的VIF值。 2)岭回归(ridge regression estimator) 回忆对于多元线性回归方程,系数的LS估计是 岭回归估计就是计算 此处D是一个对角矩阵,定义为 具体操作:一般选取r从0.01开始,逐步增加,每次都计算,一直到稳定不变为止。 此方法的优点:在matlab环境下,使用矩阵运算非常容易计算。 缺点:一方面,Eviews不带此功能;另外一方面,缺乏对估计结果的解释的直观含义(是什么东西?)。 3)主成分方法(principal components) 首先,计算对称矩阵X’X的特征根和特征向量, 此处 是特征向量矩阵 是特征根矩阵, 其中特征根从大到小排列。我们关心最大的前面L个。 其次,计算,即 是新的数据列向量,作为新的解释变量。 最后,将y对Z进行回归,得到 此方法并不难计算,但是问题仍然是很难解释估计结果。 §2、异方差(heteroscedasticity) 1、含义及影响 y=X?+?,var(?i)var(?j), ijE(????, 或者记为 即违背假设3。 用LS估计,所得b是无偏的,但不是有效的。 由于E(??

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档