第2讲主成分试题.doc

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
§2 主成分分析 2.1 主成分的基本思想 主成分分析(principal component analysis)也称主分量分析,是1901年提出,再由霍特林(Hotelling1933)加以发展的一种统计方法. 基本思想:主要目的利用降维的思想,在损失很少信息的前提下把多个变量(指标)转化为几个综合指标(变量)的多元统计方法.转化成的综合指标称为主成分,每个主成分是原始变量的线性组合且各个主成分之间互不相关,主成分保留原始变量的绝大部分信息 问题:100名学生的六门课程的成绩: 问:能否把6个变量X1,X2,…,X6(数学、物理等6科成绩),用一两个综合变量 Y1,Y2来表示?Y1,Y2包含有多少原来的信息呢?能否用综合变量对成绩排序或进行其他分析? 例中每个观测值是6维空间(X1,X2,…,X6)中的点, 共100个。希望把6维空间用低维空间(Y1,Y2)表示. 2.2 主成分分析的几何意义 设有两变量(数学、语文成绩),构成二维随机向量,.观测次数据,,,则样本点在坐标系下基本分布在一条直线上如图,在上分散性最大,而在与垂直的方向上变化很小.为了分析更清楚,做线性变换 是正交矩阵 相当于坐标系逆时针旋转角得新坐标系,原观测点在新坐标系下可表为 旋转后数据和分别反映了在垂直方向上数据的分散性信息.由图知在轴上数据值分散性最大(具最大样本方差),说明最大.而垂直方向上数据分散性最小,最小.因此,的观测值基本反映了观测值变化的基本情况,可用一维随机变量代替二维随机变量,达到降维的目的.称为第一主成分,其系数向量,具有.为第二主成分,其系数向量,. 图4-1 二维随机向量的第一、第二主成分示意图 二维随机向量的100个点构成一个椭圆形状,见上图. 主成分分析的目的:构造原变量的一系列线性组合,使其方差(或样本方差)维随机向量的主成分其实就是个变量的一些特殊的线性组合,在几何上这些线性组合正好把构成的原坐标系统经过旋转后产生新坐标系统,这个新坐标系统的轴方向上具有最大的变异,同时提供了协方差阵的最简洁的表示(非对角 线上为0). 2.3总体主成分 一.基本理论 设某一事物研究涉及个指标,构成---维随机向量,均值,协方差阵 非负定. 考虑的一个线性组合(或称对线性变换形成新的综合变量): 这里. 对于综合变量,我们要确定,使得的方差达到最大. 由于对任意给定的常数,,如果对不加以限制,上述问题 就变得毫无意义.于是限制在下,求的最大值. 如果第一主成分在方向上的分散性还不足以反映原变量的分散性,再构造的线性组合: 这里,要求和不相关(信息不重叠),即 ,使达最大. 转化为在约束条件和下,求使得使达最大. 一般,若还不足以反映原变量的信息,则进一步构造的线性组合,求 满足:(1)系数向量单位化; (2)各主成分不相关,无重叠信息,; (3)主成分方差由此递减. 二.总体主成分求法 维随机变量,的协方差矩阵的p个特征值,且特征值所对应的特征向量分别为,则 的第个主成分为 ,, 且 证明:(可略) 非负对称,则存在正交矩阵,使 为对角阵,且为标准正交化的特征向量. 证明:非负对称,则存在正交矩阵,使 为对角阵,且为标准正交化的特征向量. (1)第一主成分为 选满足使得最大. 令 则 且 当时,上式取等号,从而时,达最大,得第 一主成分. (2)第二主成分为 对第二主成分,,满足,使达最大. 令 则且由故 当时,上式取等号,从而时,满足 ,且使达最大,得第二主成分. 类似可证. 三.总体主成分的性质 (1)主成分协方差矩阵及总方差 为个主成分构成的随机向量,则,其中 为的个正交单位化特征向量构成的正交矩阵,主成分向量的 协方差阵为 各主成分的总方差 的各变量总方差分解成不相关变量的总方差. (2)主成分的贡献率与累计贡献率 ——第k个主成分的贡献率 它反映了第k个主成分提取全部信息的多少 ——前k个主成分的累积贡献率 它反映了前k个主成分共同提取全部信息的多少. 说明:第个主成分与原始变量的相关系数称为因子载荷. 四.主成分分析—PROC PRINCOMP过程 基本语句形式: PROC PRINCOMP DATA=SAS数据集1 OUT=SAS 数据集2 OUTSTAT=SAS 数据集3 COV N=n PREFIX=name; /* 指出要进行分析的SAS集名称、输出集等 */ VAR 变量名称; /* VAR后面列出数据集中参与主成分分析的变量名称,若省略此句,则数据集中所有数值变量均参与分析*/ RUN; 例2.1 设随机向量协方差矩阵为,求主成分. 解:法一:直接计算 (1)求特征根 求特征根并依大到小排列,

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档