SAS软件应用之主成分分析参考.ppt

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SAS软件应用之主成分分析参考

第16章 主成分分析 中国疾病预防控制中心 学习目标 了解主成分分析的数学模型; 熟悉主成分分析的方法步骤; 掌握主成分分析的作用和应用领域; 掌握PRINCOMP过程并运用此过程进行数据分析。 概述 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在统计分析中也称为变量。因为每个变量都不同程度地反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。 概述 科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。例如,糖尿病、动脉硬化等疾病的病因是多种多样的,收集的资料中包含的信息是丰富多彩的。再如,在心理学研究中,描述儿童气质的指标可以有9个,描述儿童活动能力的指标可以有6个,;在临床医学研究中,描述儿童生长发育的的可以有12个指标,鉴别阑尾炎病型的可以有27个指标。然而,重叠的、低质量的信息越多,越不利于医生作出诊断。指标较多时,给资料分析带来很多麻烦,增加了分析问题的复杂性和难度。例如,在线性回归分析中,要求模型中的自变量是相互独立的,否则,估计的结果是不准确的,甚至是相反的结论,产生误导。 概述 在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。比如描述儿童生长发育的指标中,身高、腿长和臂长这三个指标可能是相关的,而胸围、大腿围和臂围这三个围度指标也会有一定的相关性。如果分别用每一个指标对儿童的生长发育做出评价,那么这种评价就是孤立的、片面的,而不是综合的。仅选用几个“重要的”或“有代表性”的指标来评价,就失去了许多有用的信息,容易得出片面的结论。所以,我们需要一种综合性的分析方法,既可减少指标变量的个数,又尽量不损失原指标变量所包含的信息,对资料进行全面的综合分析。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 概述 主成份分析的基本思想就是将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息,符合专业含义。何为主成分?简而言之,主成分实际上就是由原变量X1~Xm线性组合出来的m个互不相关、且未丢失任何信息的新变量,也称为综合变量。多指标的主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。 主成分分析简介 主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。 主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维处理技术。 主成分分析的方法步骤 主成分分析的过程,就是确定原来变量xj( )在各主成分zi( )上的载荷lij。 从主成分分析的基本原理和数学模型可以看出,主成分分析的任务是估计主成分,确定主成分的个数,解释主成分的实际意义和计算主成分得分。 假设有k个指标x1,x2,…,xk,每一个指标有n个观测值,它们的标准化指标变量是 , 主成分分析的方法步骤 对原始指标数据进行标准化变换: 将原始数据标准化,然后利用标准化的数据计算主成分。X为标准化后的数据矩阵,则: 主成分分析的方法步骤 计算相关系数矩阵: 其中, 主成分分析的方法步骤 计算相关矩阵的特征值和特征值所对应的特征向量: 求主成分的问题,实际上就是要求出标准化指标变量X的协方差矩阵Cov(X)的特征值和特征向量。X的协方差矩阵为: 主成分分析的方法步骤 求得k个非负特征值 ,将这些特征值按从小到大的顺序排列为: 再由 解得每一特征值对应的特征向量,从而求得各主成分: 主成分分析的方法步骤 计算主成分贡献率及累计贡献率 各主成分互不相关,即的相关系数: 于是,各主成分间的相关系数矩阵为单位矩阵。 一般地,主成分Zi的贡献率为: 主成分分析的方法步骤 确定主成分的个数 当得到了k个主成分后,要根据确定主成分个数的准则和主成分的实际意义来确定主成分的个数。一般说,确定

文档评论(0)

2017meng + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档