网站大量收购闲置独家精品文档,联系QQ:2885784924

《统计手册:金融中的统计方法》 第16章 主成分分析和因子分析.docxVIP

《统计手册:金融中的统计方法》 第16章 主成分分析和因子分析.docx

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

《统计手册:金融中的统计方法》

1

第16章主成分分析和因子分析

C.RadhakrishnaRao

1.引言

主成分分析和因子分析(principalcomponentandfactoranalysis,PCA和FA)是用于研究个体测量指标的协方差(或相关)结构的探索性多元技术。分析的目标可以不同:找出若干可以解释可观测指标之间的变差或者联系的潜变量而简化高维数据,对相似指标进行分组及检测多重共线性,将高维数据在低维空间中图示以直观考察数据的散布情况及检测异常值。PCA是由Pearson(1901)和Hotelling(1933)发展起来的;Rao(1964)给出了基本原理及一些扩展和运用。FA首先由Spearman(1904)提出,接着Lawley(1940)在多元正态性的假定下发展。Rao(1955)给出了没有任何分布假设的FA的原理,命名为典型因子分析(CFA)。现在已经有许多优秀的、大部的专著致力于社会科学和自然科学研究中PCA和FA的计算及使用问题。参考文献包括Bartholomew(1987),Basilevsky(1994),Cattel(1978),Jackson(1991),和Jolliffe(1986),这里仅提到少数作者。

当测量指标是定性指标时,和PCA有关的一种方法称为对应分析(correspondenceanalysis,CA),是Benzecri(1973)基于Fisher(1936)提出的定性尺度范畴(scalingqualitativecategories)方法而发展起来的。Greenacre(1984)的专著阐述了CA的理论及其在列联表分析中的应用。Rao(1995)的论文包含了CA的一种替代方法,和CA的用途一致,但看起来优于早期方法。

本文将提供某些必威体育精装版理论成果和实际应用以全面考察PCA和FA。

2.主成分

2.1.一般问题

主成分问题可以用如下非常一般的步骤进行阐述。令x是一个p维向量,y是一个q维向量,其中x和y的一些分量可能是相同的。我们要用z=Ay代替y,其中A是一个r×q矩阵且rq,使得用z代替y预测x的损失尽可能小。如果

(2.1)

是x和y的协方差矩阵,那么用z=Ay预测x的误差的协方差矩阵就是

W=Σ11?Σ12A′(AΣ22A′)?1AΣ21(2.2)我们选择A,使得lWl对一个适当选择的标准而言是小的。如果选择Wl=trW,那么最优选择是

A*=argmxtrΣ12A′(AΣ22A′)?1AΣ21

最大值在

《统计手册:金融中的统计方法》

2

A=(C1:…:Cr)(2.3)

时达到,其中C1,…,Cr是Σ21Σ12关于Σ22的前r个特征值λ≥λ≥…≥λ所对应的r个

特征向量,也就是说,特征向量和特征值是从下面的行列式方程中产生的

(2.4)

用z*=A*y预测x的相对信息损失是

(2.5)

我们可以选择一些特殊的x和y,并导出具有(2.3)形式的最优变换A。

2.2.x=y的情形

考虑特定情形x=y,得到一般主成分C1x,…,Crx,其中C1,…,Cr是行列式方程

Σ11?λI=0的前r个特征值λ≥…≥λ所对应的前r个特征向量。在这种情况下,信息

损失(2.5)等于

(2.6)

通常用百分数表示,r的选择取决于(2.6)的大小。

实际上,需要从p维随机向量x的n个独立观测值样本中估计λ和Ci,这个样本用p×n矩阵表示

X=(x1:…:xn)(2

文档评论(0)

千帆起航 + 关注
实名认证
文档贡献者

走过路过,不要错过!

1亿VIP精品文档

相关文档