- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主成分分析的讲义
应用统计第5章 本章教学目标: 掌握回归主成分分析的基本概念、基本原理及其分析应用的基本步骤; 能应用主成分分析方法解决实际问题 本章主要内容: §10.1 主成分分析的概念 §10.2 主成分计算 §10.3 样本主成分 §10.4 主成分的选取 §10.5 案例分析 在实证数据分析研究中,人们为了尽可能完整地搜集信息,对于每个样本往往要观测它的很多项指标,少者四、五项,多则几十项,这些指标之间通常不是相互独立而是相关的。因此,从统计分析或推断的角度来说,人们总是希望能把大量的原始指标组合成较少的几个综合指标,从而使分析简化。 例如,一个人的身材需要用好多项指标才能完整地描述,诸如身高、臂长、腿长、肩宽、胸围、腰围、臀围等,但人们购买衣服时一般只用长度和肥瘦两个指标就够了,这里长度和肥瘦就是描述人体形状的多项指标组合而成的两个综合指标。 假设观测指标共有p个,分别用x1, x2,…,xp,表示,将这些指标综合为一个指标的方法显然有很多,但最简单的方法是将这些指标用线性组合的方法将它们组合起来。因此,可设定其综合指标的形式为这些指标的线性组合,即 我们希望构造少数几个这样的综合指标,并且这几个综合指标之间是不相关的。 其中反映原始观测指标的变动程度最大的综合指标最重要,我们称其为原始观测指标的第一主成分;而反映原始观测指标变动程度次大的综合指标,称为原始观测指标的第二主成分;反映原始观测指标变动程度第三大的综合指标,称为第三主成分;……, 设p个指标(随机变量)是p维随机变量,其协方差矩阵为 式中,协方差 限制 求 的最大值。 实际上,这就是求的 的值 根据线性代数的理论,我们知道这就是矩阵 的最大特征根 ,并且 就是相应的特征向量。 就为随机向量X的第一主成分。 X的第二主成分不应该再重复反映第一主成分已经反映的内容,所以求第二主成分时,除了有类似于第一主成分的约束条件外,还必须加上第二主成分与第一主成分不相关这一条件,即 要使 也就是要使 即第二主成分的特征向量必须于第一主成分的特征向量正交。 事实上,由于协方差矩阵Σ为非负定矩阵,故有p个非负特征根,从而可求出p个特征向量 将每一个特征向量作为一个主成分的系数向量,就可得出p个主成分。 若记p个主成分组成的主成分向量为 特征向量 组成的矩阵为A ,即 则可写成主成分向量的表达形式为: 我们有 即 不相关 各自的方差为 总的方差是 我们从 中,选出对方差贡献最大的部分指标,就达到了主成分分析的目的。 例10.1 假设市场上肉类、鸡蛋、水果3种商品价格的月份资料的协方差矩阵为: 试求这3种价格的主成分。 解:根据上述协方差矩阵,可写出其特征多项式为 令此特征多项式为0,则得特征方程,解此特征方程,从而得Σ的特征值为 得这些特征根分别代入特征方程,然后求解就可得到相应的各个特征向量,将这些特征向量单位化,就得到相应于上述3个特征根的3个单位特征向量分别为: 于是,3种商品价格的3个主成分分别为 §10.3 样本主成分 在解决实际问题时,总体的协方差和相关阵往往都是未知的,需要通过样本来进行估计。设样本数据矩阵为 则样本协方差矩阵为 样本相关矩阵记为 §10.4 主成分的选取 由主成分分析的基本思想和计算过程可以看出,主成分分析是把p个随机变量的总方差tr(Σ)分解为p个不相关的随机变量的方差之和。各个主成分的方差即相应的特征根表明了该主成分的方差,方差的值越大,表明主成分综合原始变量的能力越强。 累计贡献率: 在研究实际问题时,一般要求累计贡献率不小于85%。 虽然主成分的贡献率这一指标给出了选取主成分的一个准则,但是累计贡献率只是表达了前m个主成分提取了的多少信息,它并没有表达某个变量被提取了多少信息,因此仅仅使用累计贡献率这一准则,并不能保证每个变量都被提取了足够的信息。因此,有时还往往需要另一个辅助的准则。 由于 ,所以 显然 是第j个主成分所能说明的第i个原始变量的方差,即第j个主成分从第i个原始变量中所提取的信息。 原始变量 的信息提取率 定义为: 我们选取主成分时,不仅要使前m个
文档评论(0)