《第5章 主成分分析与经验正交分解(精品课程)》.doc

《第5章 主成分分析与经验正交分解(精品课程)》.doc

  1. 1、本文档共63页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《第5章 主成分分析与经验正交分解(精品课程)》.doc

第5章主成分分析与经验正交分解 主分量分析的数学模型 当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机 变量,是很必要的。首先我们看一个例子。 例5.1 为了调查学生的身材状况,可以测量他们的身高()、体重()、胸围()和坐高()。可是用这4个指标表达学生身材状况不方便。但若用 =3.6356+3.3242+2.4770+2.1650 表示学生身体魁梧程度;用 =-3.9739+1.3582+3.7323-1.5729 表示学生胖瘦程度。则这两个指标(,)很好概括了4个指标(-))、体重()、胸围()和坐高()不同;(, , , )是4维随机向量;,是他们的2个线性组合,,能很好表示, , , 的特性。类似的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变量的少数线性组合,使之尽可能刻划全部随机变量的特性,选出的线性组合就是诸多随机变量的主成分,又称为主分量。寻求随机向量主成分,并加以解释,称为主成分分析,又称为主分量分析。主成分分析在许多学科中都有应用,细节可参看张尧廷(1991)、Richard(2003),主成分分析在气象等科学中称为PCA方法,见吴洪宝(2005)。 主成分分析的数学模型是:对于随机向量X,想选一些常数向量,用尽可能多反映随机向量X的主要信息,也即尽量大。但是的模可以无限增大,从而使无限变大,这是我们不希望的;于是限定模的大小,而改变各分量的比例,使最大;通常取的模为1最方便。 定义5.1 设随机向量二阶矩存在,若常数向量,在条件=1下 使最大,则称是X的第一主成分或第一主分量。 由定义可见,尽可能多地反映原来p个随机变量变化的信息。但是一个主成分往往不能完全反映随机向量特色,必须建立其它主成分,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关(不包含的信息)。 定义5.2 若常数向量c=在条件=l,下,使最大, 则称是 X的第二主成分;若常数向量c=在条件=l,, 下,使最大,则称是 X的第三主成分;…。 当随机向量方差已知时,定理5.1给出主成分的计算公式。 定理5.1 设随机向量方差存在为。特征值从大到小为 ,对应的彼此正交单位特征向量为。则X的第j个主成分 为 与X的内积,即 (5.1) 且 证明:任取p维单位向量c,必有。于是,而在条件下,当,即时,最大,所以X的第一主成分是与X的内积。由条件,可得,于是,从而; 所以在条件=1、下,当时,最大,所以X的第2个主成分为与X的内积。对第三,第四……主成分同样可证。 由证明过程可见:。它称为第i个主成分的方差贡献,表示第i个主成分变化大小,从而反映第i个主成分提供的信息的大小。 例5.2 设,且 则 =3.87939,=[0.293128,-0.84403,-0.449099] =1.6527,=[0.449099,-0.293128,0.84403] =0.467911,=[0.84403,0.449099,-0.293128] 所以第一主成分就是=0.293128-0.84403 -0.449099; 第二主成分就是=0.449099-0.293128+0.84403; 第三主成分就是=0.84403+0.449099-0.293128。 它们的方差贡献分别是;; 。 定义5.3 称为主成分的方差贡献率;称为前k个主成分的累计方差贡献率;与X第k个分量的相关系数称为因子负荷量。 当某个主成分的方差贡献率很小时,认为它提供的信息很少,可以略去此主成分。通常取q,使前q个主成分的累计方差贡献率达到70%-80%,然后只考虑前q个主分量,用它们解释随机向量X的特性,其余主成分认为是观测误差等随机因素造成的。 在实际问题中,X的每一分量可取不同单位,单位取小时(例如长度单位取毫米,甚至微米)该分量的方差会变大,从而在主成分中变得突出;而单位选取不应影响主成分。为了避免量纲对主成分的影响。常常将随机变量都标化,即令,它就是无量纲量,令再求X*的主成分,即标准化后的主成分。将代入,可求随机向量X的主成分。容易证明 定理5.2 设随机向量X的相关阵为,特征值为,对应的彼此正交单位特征向量为,则标准化后X的第j个主成分是。 因此,标准化后的主成分称为由相关阵决定的主成分。直接由随机向量的协方差阵算出的主成分称为由协差阵决定的主成分。 同样一组随机变量,用它们的协差阵和相关阵求出的主成分是不一样的。这是因为优化的准则(目标函数)不同:前者要求=最大,而后者要求==最大,其中 。 例5.3 (协差阵和相关阵决定的主成分不同)设随机变量;其协方差阵是,特征值和特征向量是, 。因而由协方差阵决定的主成分是: ,

文档评论(0)

qspd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档