网站大量收购独家精品文档,联系QQ:2885784924

章—主成分.docVIP

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
章—主成分

主成分分析 1、基本(数学)原理-几何观点:平移、旋转:代数观点:线性变换 2、如何算?-如何变换 3、为什么?-为什么这样算 4、如何应用? 5、主成分回归 6、有关问题的讨论-未解决和正在解决的问题 小结: 1、主成分分析的计算步骤 2、由协差阵S还是由相关阵R求的主成分? 如果指标间的度量单位不同,指标取值范围差异较大,则由相关阵R求主成分。 如果指标间的度量单位相同,指标取值范围差异不大,则由协差阵S求主成分。 3、主成分分析的数学原理 4、主成分分析失效的情形 二、Statistica中主成分分析的计算步骤 注意:Statistica中的主成分分析是从相关阵出发的,而不是从协差阵出发的 主成分分析也称主分量分析。由于变量之间存在着一定的相关性,通过线性变换建立原变量与新变量(主成分)之间的线性组合,并从原变量中尽可能多地提取信息,当第一个线性组合(第一主成分)不能提取更多的信息时,再考虑第二个线性组合(第二主成分),…,直到所提取的信息与原变量相差不多时为止。这就是主成分分析的基本思想。 主成分分析的数学模型是,设个原变量构成的维随机向量为,对作正交变换,令 其中 T为正交矩阵,要求y的各分量互不相关,且y的第一个分量的方差最大,第二个分量的方差次之,…,y的各分量方差之和与x的各分量方差之和相等(以保证原变量x的信息不丢失)。y的第一个分量称为第一主成分,第二个分量称为第二主成分,…。 §1 主成分分析的几何意义 一、例子 例、通过一个例子看主成分分析的几何意义。有下列数据。 变量 数据 方差 x1 -4 -3 -2 -1 0 1 2 3 4 7.5 x2 -8 -6 -4 -2 0 2 4 6 8 30.00 数据的散点图如下。 从图中可看出,这些点在x轴、y轴两个方向上都存在方差,x的方差为7.5,y的方差为30。实际上,这些点在同一条直线y=2x上,如果在此直线上建立数轴,并在直角坐标系中考察这些点,则这些点在轴方向上不存在方差,仅在轴方向上都存在方差。 如果将坐标系作旋转变换 变换后的数据为 变量 数据 方差 y1 -8.94 -6.71 -4.47 -2.24 0 2.236 4.472 6.708 8.944 37.49 y2 0 0 0 0 0 0 0 0 0 0 变换后,数据的散点图如下。 因此,二维数据的信息全部包含在一维数据中了,变量的维数就从2降为1。这样就达到了降维的目的。 在实际问题中,两个变量的样品点完全落在一条直线上的情况很少见。一般情况下的散点图如下图。 如图,将坐标系作适当的平移和旋转,得到新坐标系。在新坐标系中,y1轴方向上的方差较大,y2轴方向上的方差较小。可以说,变量(x1,x2)的信息大部分集中在新变量y1上,小部分集中在新变量y2上。 所以,称y1是(x1,x2)的第一主成分,y2是(x1,x2)的第二主成分。在一定的条件下,舍掉第二主成分y2,尽可能地只用第一主成分y1描述原来的全部样品,从而达到的降维的目的。或者说,通过适当的变换,既达到降维的目的,又使得原数据保留的信息最多。这就是主成分分析的基本思想。 二、主成分分析的计算 先讨论两个变量的情形。设(x,y)的样本数据如下表。 x1 x11 x12 … x1i … x1n x2 x21 x22 … x2i … x2n 设其均值和协方差矩阵分为 ,, 将坐标系平移到散点图的重心处(,),再适当的旋转,得到: 因此,确定第一主成分y1即归结为确定y1的方向,也即归结为确定系数a11、a12。 按什么准则确定y1的方向呢?从散点图中可观察到:第一主成分y1的方向是方差最大的方向,第二主成分y2的方向是方差较小的方向。因此,要选择单位向量: 使得y1的方差最大。选择单位向量: 使得y2的方差较小。 如何选择单位向量a1、a2呢? 后面将要证明:协方差矩阵S的最大特征根所对应的单位特征向量就是所要求的向量a1,且,此特征根就是y1的方差;S的较小特征根所对应的单位特征向量就是所要求的向量a2,且,此特征根就是y2的方差,…。 以下举例说明之。bbb 原变量 1 2 3 4 5 6 7 8 方差 GDP英语x1 100 90 70 70 85 55 55 45 323.4 CPI数学x2 65 85 70 90 65 45 55 65 187.5 总分 165 175 140 160 150 100 110 110 510.9 排序 2 1 5 3 4 8 6 6 计算得 =71.25,=67.5,S= 求解 得 解得=378.98,=131.96 =378.98和=131.96对应的单位特征向量分别为 ,

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档