sas主成分分析与因子分析sas主成分分析与因子分析.ppt

sas主成分分析与因子分析sas主成分分析与因子分析.ppt

  1. 1、本文档共92页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
sas主成分分析与因子分析sas主成分分析与因子分析

第六章 主成分分析与因子分析 6.1 主成分分析 6.2 因子分析 6.1 主成分分析 6.1.1 主成分分析的概念与步骤 6.1.2 使用INSIGHT模块作主成分分析 6.1.3 使用“分析家”作主成分分析 6.1.4 使用PRINCOMP过程进行主成分分析 6.1.1 主成分分析的概念与步骤 1. 主成分分析基本思想 主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标(比如p个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。但是这种线性组合,如果不加限制,则可以有很多,应该如何去选取呢? 在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0。称F2为第二主成分,依此类推可以构造出第三、第四、…、第p个主成分。 2. 主成分分析的数学模型 设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,X2,…,Xp,得到原始数据资料阵: 其中Xi = (x1i,x2i,…,xni),i = 1,2,…,p。 用数据矩阵X的p个列向量(即p个指标向量)X1,X2,…,Xp作线性组合,得综合指标向量: 简写成: Fi = a1iX1 + a2iX2 +…+apiXp i = 1,2,…,p 为了加以限制,对组合系数ai = (a1i,a2i,…,api)作如下要求: 即:ai为单位向量:aiai = 1,且由下列原则决定: 1) Fi与Fj(i≠j, i, j = 1, …, p)互不相关,即Cov(Fi,Fj) = ai?ai = 0,其中Σ是X的协方差阵。 2) F1是X1,X2,…,Xp的一切线性组合(系数满足上述要求)中方差最大的,即 ,其中c = (c1,c2,…,cp) F2是与F1不相关的X1,X2,…,Xp一切线性组合中方差最大的,…,Fp是与F1,F2,…,Fp-1都不相关的X1,X2,…,Xp的一切线性组合中方差最大的。 满足上述要求的综合指标向量F1,F2,…,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值?i,每一个主成分的组合系数 ai = (a1i,a2i,…,api) 就是相应特征值?i所对应的单位特征向量ti。方差的贡献率为 ,?i越大,说明相应的主成分反映综合信息的能力越强。 3. 主成分分析的步骤 (1) 计算协方差矩阵 计算样品数据的协方差矩阵:Σ = (sij)p?p,其中 i,j = 1,2,…,p (2) 求出Σ的特征值及相应的特征向量 求出协方差矩阵Σ的特征值?1??2?…?p0及相应的正交化单位特征向量: 则X的第i个主成分为Fi = aiX i = 1,2,…,p。 (3) 选择主成分 在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率 解释主成分Fi所反映的信息量的大小,m的确定以累计贡献率 达到足够大(一般在85%以上)为原则。 (4) 计算主成分得分 计算n个样品在m个主成分上的得分: i = 1,2,…,m (5) 标准化 实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换: 其中 , ,j = 1,2,…,p。标准化后的数据阵记为X*,其中每个列向量(标准化变量)的均值为0,标准差为1,数据无量纲。 标准化后变量的协方差矩阵(Covariance Matrix)Σ = (sij)p?p,即原变量的相关系数矩阵(Correlation Matrix)R= (rij)p?p: i,j = 1,2,…,p 此时n个样品在m个主成分上的得分应为: Fj = a1jX1* + a2jX2*

文档评论(0)

pkaokqunw + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档