第章环境主成份分析.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第章环境主成份分析.ppt

第10章 环境 主成分分析简介 Principal Component Analysis(PCA) 1、什么是主成分分析? 我们来看一个例子:小学各科成绩的评估可以用下面的综合成绩来体现: a1×语文+a2×数学+a3×自然+a4×社会科学 确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成绩总和就相对于新的综合变量——主成分 什么是主成分分析? 推而广之,当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合起来处理,这就是PCA。 这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。 什么是主成分分析? 由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。 主成分分析(Principal Component Analysis, 简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。 2、主成分分析原理 根据方差最大化原理,用一组新的、线性无关且相互正交的向量来表征原来数据矩阵的行(或列)。这组新向量(主成分)是原始数据向量的线性组合。 具体来讲就是:通过对原始数据的平移、尺度伸缩(减均值除方差)和坐标旋转(特征分解),得到新的坐标系(特征向量)后,用原始数据在新坐标系下的投影(点积)来替代原始变量。 为什么要根据方差确定主成分? 对主成分的要求 上例可见,用总分有时可以反映原分数表的情况,保留原有信息,有时则把信息丢尽,不能反映原始的情况和差异。根据总分所对应的方差可以确定其代表了多大比例的原始数据(分数)信息。 一般来说,人们希望能用一个或少数几个综合指标(分数)来代替原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。 主成分分析的目的 压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。 这样就可以消除原始变量间存在的多重共线性,克服由此造成的运算不稳定、矩阵病态等问题。 所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。 主成分的特点 ☆ 主成分是原变量的线性组合; ☆ 各个主成分之间互不相关; ☆ 主成分按照方差从大到小依次排列,第一主 成分对应最大的方差(特征值); ☆ 每个主成分的均值为0、其方差为协方差阵 对应的特征值; ☆ 不同的主成分轴(载荷轴)之间相互正交。 主成分的特点 ☆ 如果原来有p个变量,则最多可以选取p个主成分,这p个主成分的变化可以完全反映原来全部p个变量的变化; ☆ 如果选取的主成分少于p个,则这些主成分的变化应尽可能多地反映原来全部p个变量的变化。 PCA的优点 ★ 它能找到表现原始数据阵最重要的变量的组合 ★?通过表示最大的方差,能有效地直观反映样本之间的关系 ★?能从最大的几个主成分的得分来近似反映原始的数据阵的信息 主成分得分 (潜变量-latent variable) 主成分轴、载荷向量 原始数据前的加权系数决定了新的综合变量主成分(得分)的大小和性质,通常称为主成分轴或者载荷向量(载荷轴、载荷系数)。 主成分分析的关键就是确定这些系数,这些系数构成了新的坐标系,将原始变量在新的坐标系下投影就可求得新坐标系下的变量值(主成分得分)。 三变量主成分分析示意图 PC1=a1xi1+a2xi2+a3xi3 PC2= b1xi1+b2xi2+b3xi3 对三维空间下的一组样本(设样本数为n), 其原始变量的坐标系为x1,x2,x3,在对原始坐 标系经过坐标平移、尺度伸缩、旋转等变换 后, 得到一组新的、相互正交的坐标轴v1,v2 , 可使原始变量在新坐标系上的投影值(分 别称为第一、第二主成分)的方差达到最 大。其中v1,v2称为第一、第二载荷轴。对于 m维空间,载荷轴的个数最多为m。 主成分变换将三维空间的样本显示在二维空间 ii)求协方差矩阵Z iii)特征分解 相当于将原来的坐标轴进行旋转得到新的坐标 轴U: —Z的特征值组成的对角阵 U—Z的特征向量按列组成的正交阵,它构成 了新的矢量空间,作为新变量(主成分)的坐 标轴,又

文档评论(0)

docinpfd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档