第八章 基于稳健主成分回归的统计数据可靠性评估方法.doc

第八章 基于稳健主成分回归的统计数据可靠性评估方法.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章 基于稳健主成分回归的统计数据可靠性评估方法

第八章 基于稳健主成分回归的统计数据可靠性评估方法 ——以2008年我国地区经济增长横截面数据为例 模型的理论知识 (一)问题的提出 文献中经常用经典的拟合方法(如主成分分析、最小二乘回归估计)得到的诊断工具去检测异常值。但经典的方法可能受到异常值的影响,以致模型拟合结果并不能检测出真正的异常值,这就是所谓的掩盖(masking)现象;并且经典的拟合方法还会使得一些正常的数据点表现为异常值,这就是所谓的淹没(swamping)现象。为避免这些现象,可以使用稳健统计方法。稳健统计的目的就是试图找到类似于当数据中没有异常值时的拟合结果,进而,从稳健拟合得到的大的残差中识别出异常值。Hubert 和 Verboven(2003)提出的稳健主成分回归及相应的异常值诊断方法可以克服相关指标中的异常值对主成分的影响,并使求出的估计结果不受异常值的强烈影响,拟合的残差可以更好地识别出异常值。 (二)稳健主成分回归及相应的异常值诊断方法 关于主成分回归的稳健估计和异常点诊断,国外已有学者进行了研究。Hubert 和Verboven(2003)提出了一种新的稳健主成分回归方法RPCR [3],并提供了相应的Matlab程序,该程序包含于稳健分析工具库LIBRA中。RPCR方法的第一阶段是将稳健主成分分析方法ROBPCA应用于自变量x,并得到稳健主成分得分t;第二阶段是以稳健主成分得分t作为自变量,将因变量y对其进行回归,使用的回归方法是稳健的LTS(Least trimmed squred)估计。使用RPCR方法,还可以根据有关的诊断图有效的识别出正常观察测值、主成分的异常值和回归异常值。本文主要使用RPCR方法对我国地区经济增长统计数据进行诊断,该方法简要介绍如下。 1.稳健主成分分析 RPCR的第一阶段是进行稳健主成分分析,使得到的主成分不受异常值的影响。RPCR使用的稳健主成分方法是Hubert et al.(2005)提出的ROBPCA方法[4],该方法组合了两种稳健主成分分析方法的思想,一种是基于MCD估计的稳健的协方差矩阵方法,另一种是基于投影寻踪(Projection pursuit,下称PP)技术的方法。在ROBPCA中,PP部分被用于初始数据空间的降维,而基于MCD估计的一些思想则被用于这一低维数据空间。模拟结果表明,这一组合方法可以产生比投影寻踪方法更为精确的结果。 将ROBPCA方法应用于原始数据矩阵,可以产生由相互正交的载荷矩阵得到的稳健主成分,以及稳健的中心。由此可以导出每个数据点的k维稳健主成分得分: (1) ROBPCA方法的一个重要参数是允许数据集中未被污染的观测值的最高比例,该方法默认取值75% ,即当数据集中至多包含25%的异常值时,该方法也能给出正确的分析结果。当怀疑数据集中所包含的异常值比例更高时,最低可取50%。 2.稳健回归 RPCR方法的第二阶段,需要使用稳健回归的方法将因变量对稳健主成分得分进行回归,回归模型如下: (2) 为估计式(2)的参数,一般使用重复加权的LTS估计方法[5],该方法非常稳健,具有高达50%的破坏点(Breakdown point)。模型参数的LTS估计定义如下: (3) 式(3)中,是按从小到大顺序排列的残差平方,LTS估计其实等价于寻找具有最小残差平方目标函数的h个观察值的子集,LTS估计就是用最小平方法对这h个观察值进行拟合。LTS估计的残差尺度可由下式进行估计: (4) 式(4)中,是由LTS拟合得到的残差,是在残差呈正态分布时使得残差尺度估计一致、无偏的修正因子[6]。由于LTS的残差尺度估计本身是高度稳健的,因此,可以通过标准化的LTS残差识别异常值。 3.RPCR中主成分数目的选择 RPCR的另一个重要问题是主成分数目的选择,最受欢迎的一种准则是交叉验证的最小化误差均方根RMSECVk,公式如下: (5) 式(5)中,是将第i个观察值作为验证样本,先从数据集中删除第i个观察值,使用k个主成分得分进行主成分回归,再对其进行预测得到的预测值。具有最小的RMSECVk所对应的k就是最优的主成分的数目。然而,RMSECVk统计量并不适合于被污染的数据集,因为这个统计量也包含了对异常值的预测。为此,Hubert和Verboven(2003)建议使用稳健的RMSECV统计量(R-RMSECV)进行主成分数目的选择[3]。 R-RMSECV是一种关于模型对新观测值预测能力的稳健度量。如果想察看模型对给定观测值的拟合情况,可以定义另一种类似的拟合程度准则——均方根误(RMSE)。RMSE准则是将式(5)中的替换为使用包括第i个观测值在内的所有观测值得到的

文档评论(0)

yurixiang1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档