第04章主成分和典型相关选读.ppt

  1. 1、本文档共127页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4.1 主成分分析 主要目的: 对原变量加以“改造”,在不致损失原变量太多信息的条件下尽可能地降低变量的维数,即用较少的“新变量”代替原来的各变量。 总体主成分 一般地,在约束条件 及 下,求 使 达到最大,由此 所确定的 称为 的第 个主成分。 总体主成分的求法 以上结果告诉我们,求X的各主成分,等价于求它的协方差矩阵∑的各特征值及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组合系数的 的线性组合分别为X的第一、第二、直至第p个主成分,而各主成分的方差等于相应的特征值。 总体主成分的性质 前 个主成分的累计贡献率: 表明前m个主成分综合提供信息的能力。 实际应用中,通常选取mp,使前m个主成分的累计贡献率达到较高的比例(如80%到90%)。这样用前m个主成分代替原始变量不但是变量维数降低,而且也不致于损失原始变量中的太多信息。 实际应用中,一般只对前m个主成分感兴趣,因此只关心 与 的相关系数,即表中前m行的各个值。 样本主成分 实际应用中,选取前m(mp)个样本主成分,使其累计贡献率达到一定的要求(如80%到90%),以前m个主成分的得分代替原始数据,这样便可以达到降低原始数据维数的目的,同时也不致损失原始数据的太多信息。 例 4.3 SPSS SPSS 1.Analyze →Data Reduction →Factor Analysis, 弹出 Factor Analysis 对话框; 2.把变量 选入Variables 框; 3. Descriptives: Correlation Matrix 框组中选中Coefficients,然后点击Continue, 返回Factor Analysis 对话框; 4.点击“OK” 因子分析 主成分分析的推广和发展,多元统计分析方法中降维的一种方法,是研究相关阵或协方差阵的内在的依赖关系,将多个变量进行综合,并用少数几个因子来再现原始变量和因子之间的相关关系的一种统计方法。 例 4.6 按本结果的特征向量值及用COV选项规定使用协方差阵,我们可以知道两个主分量如此计算: PRIN1 = 0.326866 *JULY+ 0.945071*JANUARY PRIN2 = 0.945071 *JULY+ (-0.326866)*JANUARY 例 4.6 如果没有用COV选项,原始变量还需要除以标准差。由系数可见,第一主分量是两个月份的加权平均,代表了一个地方的气温水平,第二主分量系数一正一负,反应了冬季和夏季的气温差别。 请注意: 此时的特征向量是与上不同的,而主成分公式也应用标准化后的值。 备注 关于主成分的实际意义,要结合具体问题和有关专业知识才能给出合理的解释。虽然利用主成分本身可对所研究的问题在一定程度上作分析,但主成分分析本身往往并不是最终目的,更重要的是利用主成分综合原始变量的信息,达到降低原始变量维数的目的,进而利用前几个主成分的得分的低维数据作进一步分析,如主成分回归分析、聚类分析等等。 4.2.2 总体的典型变量与典型相关 总体的典型变量的定义 第一对典型变量 第二对典型变量 一般情况 求法 总体典型相关变量与典型相关系数的求法 从标准化变量出发 备注 例4.7 例4.7 4.2.3样本的典型变量与典型相关 同样可以求标准化样本的样本典型变量与样本典型相关系数。这等价于从观测数据的样本相关系数R出发作典型相关分析。 在实际应用中,通常从R出发进行典型相关分析,选择样本典型相关系数较大的少数几对典型变量,以反映原来两组变量间的相关性。 4.2.4典型相关系数的显著性检验 检验统计量 例4.8 例4.8 例4.8 例4.8 PROC CANCORR过程 PROC CANCORR 选项; VAR 变量名称串; WITH 变量名称串; RUN; VAR语句 列出要进行典型相关分析的第一组变量,变量必须是数值型的。 WITH语句 列举第二组变量,变量必须是数值型的。 应用举例 例1.现有某地区春播面积(X1)、化肥施用量(X2) 、水稻抽穗花期降水量(X3) 、肥猪头数(Y1) 、春粮产量(Y2)的观测数据。试分析投入因素X和产出因素Y之间的关系。 专业结论 应用举例 例2.对172个儿童测试8项感

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档