- 1、本文档共93页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成分分析 上海****通信技术有限公司 Mr Jim(seniordba@) 201301 培训大纲 一、主成分分析(Princomp) 二、因子分析(Factor) 三、相关分析(Corr) 主成分分析简介 一、什么是主成分分析? 事实上,各变量所包含的信息量多少不一,各变量间不是独立的,而是有交叉、有共性、相关的;变量间的共性一般以相关性表示,相关愈大,则共性愈多,反之亦然。 能否找到一种合理的方法,消除各分析指标之间的相关性,然后再进行全面评价? 措施: 我们可以根据这些随机变量,计算少数几个综 合指标,来反映多个原始变量所提供的信息,而且 各综合指标能够互相独立地代表某一方面的性质 。 主成分分析的应用条件 根据这些相互之间存在相关性的随机变量,计算少数几个综合指标以取代原始变量,反映多个原始变量所提供的信息 ——这种多元分析方法即为主成分分析。 主成分分析基本思想 (一)什么是合适的主成分 令主成分为F,对于一个P元总体X而言,若将其P个指标作不同的线性组合,可得到综合变量即主成分的表达式为: 各主成分包含的信息各不相同,其信息量也依次递减。 (二)如何选择合适的主成分? 按主成分包含信息的多少命名: 第一主成分——F1,第二主成分—F2……,直到第P主成分,注意其信息含量是递减的。 根据各主成分信息含量大小选择主要的主成分: 如何评价主成分信息含量的大小? 经典方法——方差分析的思想 在总体一定的情况下,其总体方差确定,根据方差分析的思想,认为在既定总变异中,若该主成分的方差占较大比重,表明该主成分对总体有较强的解释能力,包含的信息量也较大。反之,包含的信息量较少,解释能力弱。 在方差分析的基础上,用含信息量大的综合指标去代替原来的变量就能使分析简化,并使信息损失尽量小。 (三)选择主成分的数理基础 从代数学的观点来看,主成分就是P个变量的一些特殊的线性组合,而在几何上这些线性组合正是把X1,X2……Xp构成的坐标系旋转产生的新坐标系。新坐标轴使之通过样品变差最大的方向(或说具有最大样品方差)。 经过对主成分的几何意义的分析,我们发现一般情况下,P个变量组成P维空间,n个样品就是p维空间的n个点,对P元正态分布变量来说,找主成分的问题就是找P维空间中椭球体的主轴问题。找到了主轴就能够找到决定该P维空间的主要问题和主要方向,就能够用主成分分析的思想进行简化分析。 主成分的推导: 主成分的求法 设p维随机向量X的均值E(X)=0,协方差阵D(X)=∑0.求第一主成分Z1=a1′X的问题,即为求a1=(a11,a21,…,ap1),使得在a1′a1=1下,Var(Z1)达到最大,这是条件极值问题,用拉格朗日乘子法求解,令 φ(a1)=Var(a1′X) – λ(a1′a1-1)=a1′∑a1- λ(a1′a1-1) 考虑: 因a1≠0,故| ∑ - λ I|=0,求解方程组,其实就是求∑的特征根和特征向量问题,设λ= λ1是∑的最大特征根值,则相应的单位特征向量a1即为所求。一般地,求X的第i主成分可通过求∑的第i大特征值所对应的单位特征向量得到。 主成分分析的步骤 1、将原始数据标准化,目的是为了消除量纲的影响并方便求解总体协差阵Σ。 2、求总体协差阵Σ。 如何选取具有足够解释能力的主成分? 主成分的应用 二、主成分回归将计算出的主成分作为新的自变量,与应变量做多元回归分析。优点:主要解决自变量间的共线性问题,避免回归系数的不合理现象,揭示变量间的真实关系。共线性判断方法:1、相关分析;2、条件数法。条件数法:根据条件数k 的大小来判断变量间共线性的严重程度, k = λmax/ λmin 0<k<100,则认为无共线性; 100≤k≤1000,则认为存在中等共线性; k >1000,则认为存在较严重共线性(即特征根几乎等于0)。若有特征根≈0时,揭示变量间存在共线性。 培训大纲 一、主成分分析(Princomp) 二、因子分析(FACTOR) 三、相关分析(Corr) 简介 因子分析是用于寻找那些隐藏在可测变量中,无法直接观察到,却影响或支配可测变量的潜在因子,并估计潜在因子对可测变量的影响程度以及潜在因子之
文档评论(0)