网站大量收购闲置独家精品文档,联系QQ:2885784924

第8章主成分分析.ppt

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章 多元数据分析; 1、主成分分析的概念 2、主成分分析方法;主成分分析的概念;主成分分析的概念;主成分分析的概念;主成分分析的概念;例:成绩数据;从本例可能提出的问题;本例中的数据点是六维的;即每个观测点是6维空间中的一个点。我们希望把6维空间用低维空间表示。;先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵 这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维降到了一维。;当坐标轴和椭圆的长短轴平行,代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。 但坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。 如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。 椭圆(球)的长短轴相差得越大,降维也越有道理。;;对于多维变量的情况和二维类似,也有高维的椭球。 首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。 注意:和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component)。 ;正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。 选择越少的主成分,降维就越好。什么是标准呢? 那就是这些被选的主成分所代表主轴的长度之和占了主轴长度总和的大部分。 所选的主轴总长度占所有主轴长度之和的大约85%即可。;这里的Initial Eigenvalues就是这里的六个主轴长度,又称特征值(数据相关阵的特征值)。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。 ;怎么解释这两个主成分?前面说过主成分是原始六个变量的线性组合。是怎么样的组合呢?;如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,原先六个变量x1,x2,x3,x4,x5,x6与第一和第二主成分y1,y2的关系为: x1=-0.806y1 + 0.353y2 x2=-0.674y1 + 0.531y2 x3=-0.675y1 + 0.513y2 x4= 0.893y1 + 0.306y2 x5= 0.825y1 + 0.435y2 x6= 0.836y1 + 0.425y2;这些系数称为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。 比如x1表示式中y1的系数为-0.806,这就是说第一主成分和数学变量的相关系数为-0.806。 相关系数(绝对值)越大,主成分对该变量的代表性也越大。 第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。 ;可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。;A typical data analysis situation;Data set Raspberry Jams;Sample comparison according to 1 variable: Redness;Sample comparison according to 2 variables: Redness and colour;Sample comparison according to 3 variables: Redness, colour and R. Smell;Sample comparison according to all 12 variables: multivariate model (PCA);Sample comparison according to all 12 variables: multivariate model (PCA);Sample comparison according to all 12 variables: multivariate model (PCA);Principal Component Analysis (PCA);The principles of Principal Component Analysis (PCA);The original data points, plotted on the original axes of variables (X1, X2, X3) For convenience, we have a

文档评论(0)

shaoye348 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档