- 1、本文档共35页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六讲,主成分分析
主成分分析 主成分分析 (Principal Component Analysis PCA) 主成分分析 主成分分析是对多变量数据进行统计处理的一种数据线性投影方法,它在尽可能保留原有信息的基础上将高维空间中的样本映射到较低维的主成分空间。其基本思路是以一种最优化方法浓缩量测数据信息,使数据矩阵简化,降低维数,寻找少数几个由原始变量线性组合的主成分,以揭示数据结构特征,提取基本信息。 该法具有变差最优性、信息损失最小性、相关最优性、回归最优性等特点。 主成分分析的概念 主成分分析的中心目的是将数据降维,以排除众多化学信息共相存相互重叠的信息。它是将原变量进行转换,使少数几个新变量是原变量的线性组合,同时,这些变量要尽可能多地表征原变量的数据结构特征而不丢失信息,新变量互不相关,即正交。 文献中有许多种叫法:本征矢量投影、奇异值分解、karhunen loeve展开、和K-L投影 主成分分析的基本原理 在二维空间有一组测试点(y1i,y2i)(i=1,2,…,n),如下图,这组数据在二维平面上分布大致为椭圆形,若似将二维降为一维,实际上就是将二维空间上的点投影到一维空间中的一条线上。 主成分分析的基本原理 主成分分析的基本原理 在一维空间中的这条线必须包含原数据的最大方差。更准确些说,沿着这条线,使方差达到最大,其它方向使方差达到最小。从代数学的观点看,这些点的分布可以表达成它们到其重心O距离之平方加和: S2=|O1|2+|O2|2+…+|O6|2 主成分分析的基本原理 现在引入一直线L,6个数据点在L上的投影分别为1`,2`,…,6`,那么有: |Oi|2=|Oi`|2+|ii`|2 S2=|O1`|2+|O2`|2+…+|O6`|2+|11`|2+|22`|2+…+|66`|2 第一部分即为沿直线方向的方差,必须使之达到最大;第二部分即为沿其它方向的方差,必须达到最小。 为实现上述思想,选定的第一个新变量μ1(主成分1)应沿直线L方向,因为它可以表征最大的偏差量。第二个新变量μ2(主成分2)应与第一个新变量正交,即不相关。 m维空间中的主成分分析 在m 维空间中,新变量μ1,μ2,…,μm表达为 其系数矩阵为 新变量μ和老变量x的列矢量分别为 m维空间中的主成分分析 方差最大化等效于 RxV=λV Rx为数据矩阵的协方差矩阵,V为Rx的特征向量,λ为Rx的特征值。 第一个主成分μ1对应于第一个最大的特征值和第一个特征向量,第二个主成分μ2对应于第二个最大的特征值和第二个特征向量。 主成分的选取 在m维空间中,可得m个主成分。在实际应用中一般可取前几个对偏差量贡献大的主成分,这样可使高维空间的数据降到低维如二维或三维空间。 取前P个主成分的依据为: 注意事项 当数据的来源不一,不同变量间数据差异较大或量纲不同时,应作标准化处理。标准化处理有以下方法: 自动调整法(autoscaling): 将变量与本列的均值之差被标准偏差来除。此时相当于应用相关矩阵RX来计算本征矢量和本征值: RXV=λV 注意事项 归一化:对数据矩阵的列或整个矩阵进行归一化处理。用Matlab命令:normc(X)或norm(X) 均值中心化:从每个变量中减去该列的平均值。 值域调整法(range scaling): 数字实例 试样测定值 测定值标准化值(自动调节法) 本征值及本征矢量的计算 数据矩阵 Cx= 本征值及本征矢量的计算 通过协方差矩阵计算特征向量和特征值 用Matlab的函数: [V,D]=eig(Z) 主成分的选择 从最大的本征值开始加和,使比率大于80% 新变量方程 μ1=-0.7082C1-0.7046C2-0.0454C3 μ2=0.0465C1-0.1107C2+0.9928C3 通过上述变换,将C1、C2、C3三维空间的各点,变为二维空间的点。 不同采收期连翘的HPLC指纹图谱研究 将22批连翘色谱图采用Chromafinger色谱指纹图谱软件进行数据处理,以各月份代表性样品生成的共有模式。(11号峰为连翘脂苷,17号峰为连翘苷) 不同采收期连翘主成分分析贡献率及累计贡献率 从主成分分析的贡献率来看:PC1的贡献率最大为85.42% ,PC2的贡献率次之 为9.12%。其他的贡献率较小。从累积贡献率来看,取前2个特征值时,累积贡献率为94.54%,故取前2个为主成分。 标准化特征向量 样本在2个主成分的二维平面分布图 主成分分析法研究新疆产6种红景天中无机元素在其功效中的协同作用 景天科红景天属多种药用植物,具有滋补强壮、抗衰老、抗病毒、抗肿瘤、抗心率失常、保护心脏、抗辐射等功效。 新
文档评论(0)