主成分分析法PCA的原理.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成分分析法PCA的原理.pdf

  主成分分析法原理简介 1.什么是主成分分析法 主成分分析也称主分量分析,是揭示大样本、多变量数据或样本之间内在关 系的一种方法,旨在利用降维的思想,把多指标转化为少数几个综合指标,降低 观测空间的维数,以获取最主要的信息。 在统计学中,主成分分析(principal components analysis, PCA )是一种简化 数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中, 使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差 在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数, 同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶 主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不 是一定的,要视具体应用而定。 2.主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因 素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变 量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相 关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究 多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进 行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适 应这一要求产生的,是解决这类题的理想工具。 对同一个体进行多项观察时必定涉及多个随机变量X 1,X2 ,…,Xp ,它们之 间都存在着相关性,一时难以综合。这时就需要借助主成分分析来概括诸多信息 的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合 指标互相独立地各代表某一方面的性质。   任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的 变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分 不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变 异大”作为“好” 的标准来寻求综合指标。 3.主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相 关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机 向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐 标系,使之指向样本点散布最开的 p 个正交方向,然后对多维变量系统进行降 维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值 函数,进一步把低维系统转化成一维系统。 4.主成分的一般定义 设有随机变量X ,X ,…,X ,样本标准差记为S ,S ,…,S 。首先作标准 1 2 p 1 2 p 化变换: C =a x +a x + … +a x , j= 1,2,…,p j j1 1 j2 2 jp p 我们有如下的定义: (1) 若C =a x +a x + … +a x ,,且使 Var(C )最大,则称C 为第一主成 1 11 1 12 2 1p p 1 1 分; (2) 若C =a x +a x +…+a x ,,(a ,a ,…,a )垂直于(a ,a ,…,a ) , 2 21 1 22 2 2p p 21 22 2p 11 12 1p 且使Var(C )最大,则称C 为第二主成分; 2 2 (3) 类似地,可有第三、四、五…主成分,至多有p 个。 5.主成分的性质   主成分C ,C ,

文档评论(0)

tangtianbao1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档