主成分分析模型.pptVIP

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * 第二讲 主成分分析模型与因子分析模型 主成分概念首先是由Karl Parson 在1901年引进的,不过当时只对非随机变量来讨论的. 1933年Hotelling将这个概念推广到随机向量. 在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性.由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性.主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息. 一、主成分分析模型 1.什么是主成分分析 这种将多个指标化为少数互相无关的综合指标的统计方法就叫主成分分析或称为主分量分析.也是数学上处理降维的一种方法.例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等等十几个指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多,而是从多种指标中综合成几个少数的综合指标,做为分类的型号,利用主成分分析将十几项指标综合成3项指标,一项是反映长度的指标,一项是反映胖瘦的指标,一项是反映特体的指标。在商业经济中用主成分分析可将复杂的一些数据综合成几个商业指数形式,如物价指数、生活费用指数、商业活动指数等等。 主成分分析综合评价法具有以下优点:第一,可消除评价指标之间的相关影响。因为主成分分析在对原指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度越高,主成分分析效果越好。第二,可减少指标选择的工作量,对于其它评价方法,由于难以消除评价指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析由于可以消除这种相关影响,所以在指标选择上相对容易些。第三、主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前面方差较大的几个主成分来代表原变量,从而减少了计算工作量。 2、基本思想 主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组相互无关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合。 为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,称F2为第二主成分,依此类推,可以制造出第三、四……第p个主成分。不难想像这些主成分之间不仅不相关,而且它们的方差依次递减。因此,在实际工作中,就挑选前几个最大的主成分(一般取信息量包含85%以上的前几个指标),虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息,因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。 3、数学模型 设有n个样品,每个样品观测项指标(变量):X1,X2,……,Xp,得到原始资料数据矩阵: 用数据矩阵X的p个向量(即p个指标向量)X1,……,Xp作线性组合(即综合指标向量)为: 上述方程要求: 且系数由下列原则确定: (1)Fi与Fj( )不相关; (2)F1是X1,X2,…,Xp的一切线性组合中方差中最大的,F2是与F1不相关的X1,X2,…,Xp的一切线性组合中方差中最大的,……,Fp是F1,F2,…,Fp-1都不相关的X1,X2,…,Xp的一切线性组合中方差中最大的。 可以证明,满足上述条件的主成分F1,F2,…,Fp线性组合中的系数向量 恰好是X的协方差矩阵∑的特征值对应的特征向量。也就是说,数学上可以证明使Var(F1)达到最大,这个最大值是在∑的第一个特征值所对应特征向量处达到。 依此类推,使Var(Fp)达到最大,这个最大值是在∑的第p个特征值所对应特征向量处达到。 这里要说明两点:一个是数学模型中为什么作线性组合?基于两种原因: 1)数学上容易处理;2)在实践中效果好。另一个需要说明的是每次主成分的选取使Var(Fi)最大,如果不加限制就可使Var(Fi) →∞,则就无意义了,而常用的要

文档评论(0)

smashing + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档