- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
主元分析(PCA)理论分析及应用
什么就是PCA?
PCA就是Principalcomponentanalysis得缩写,中文翻译为主元分析。它就是一种对数据进行分析得技术,最重要得应用就是对原有数据进行简化。正如它得名字:主元分析,这种方法可以有效得找出数据中最“主要”得元素与结构,去除噪音与冗余,将原有得复杂数据降维,揭示隐藏在复杂数据背后得简单结构。它得优点就是简单,而且无参数限制,可以方便得应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它得用武之地。被誉为应用线形代数最价值得结果之一。
在以下得章节中,不仅有对PCA得比较直观得解释,同时也配有较为深入得分析。首先将从一个简单得例子开始说明PCA应用得场合以及想法得由来,进行一个比较直观得解释;然后加入数学得严格推导,引入线形代数,进行问题得求解。随后将揭示PCA与SVD(SingularValueDecomposition)之间得联系以及如何将之应用于真实世界。最后将分析PCA理论模型得假设条件以及针对这些条件可能进行得改进。
一个简单得模型
在实验科学中我常遇到得情况就是,使用大量得变量代表可能变化得因素,例如光谱、电压、速度等等。但就是由于实验环境与观测手段得限制,实验数据往往变得极其得复杂、混乱与冗余得。如何对数据进行分析,取得隐藏在数据背后得变量关系,就是一个很困难得问题。在神经科学、气象学、海洋学等等学科实验中,假设得变量个数可能非常之多,但就是真正得影响因素以及它们之间得关系可能又就是非常之简单得。
下面得模型取自一个物理学中得实验。它瞧上去比较简单,但足以说明问题。如REF_Ref139230488h图表1所示。这就是一个理想弹簧运动规律得测定实验。假设球就是连接在一个无质量无摩擦得弹簧之上,从平衡位置沿轴拉开一定得距离然后释放。
图表SEQ图表*ARABIC1
对于一个具有先验知识得实验者来说,这个实验就是非常容易得。球得运动只就是在x轴向上发生,只需要记录下轴向上得运动序列并加以分析即可。但就是,在真实世界中,对于第一次实验得探索者来说(这也就是实验科学中最常遇到得一种情况),就是不可能进行这样得假设得。那么,一般来说,必须记录下球得三维位置。这一点可以通过在不同角度放置三个摄像机实现(如图所示),假设以得频率拍摄画面,就可以得到球在空间中得运动序列。但就是,由于实验得限制,这三台摄像机得角度可能比较任意,并不就是正交得。事实上,在真实世界中也并没有所谓得轴,每个摄像机记录下得都就是一幅二维得图像,有其自己得空间坐标系,球得空间位置就是由一组二维坐标记录得:。经过实验,系统产生了几分钟内球得位置序列。怎样从这些数据中得到球就是沿着某个轴运动得规律呢?怎样将实验数据中得冗余变量剔除,化归到这个潜在得轴上呢?
这就是一个真实得实验场景,数据得噪音就是必须面对得因素。在这个实验中噪音可能来自空气、摩擦、摄像机得误差以及非理想化得弹簧等等。噪音使数据变得混乱,掩盖了变量间得真实关系。如何去除噪音就是实验者每天所要面对得巨大考验。
上面提出得两个问题就就是PCA方法得目标。PCA主元分析方法就是解决此类问题得一个有力得武器。下文将结合以上得例子提出解决方案,逐步叙述PCA方法得思想与求解过程。
线形代数:基变换
从线形代数得角度来瞧,PCA得目标就就是使用另一组基去重新描述得到得数据空间。而新得基要能尽量揭示原有得数据间得关系。在这个例子中,沿着某轴上得运动就是最重要得。这个维度即最重要得“主元”。PCA得目标就就是找到这样得“主元”,最大程度得去除冗余与噪音得干扰。
A、???标准正交基
为了引入推导,需要将上文得数据进行明确得定义。在上面描述得实验过程中,在每一个采样时间点上,每个摄像机记录了一组二维坐标,综合三台摄像机数据,在每一个时间点上得到得位置数据对应于一个六维列向量。
如果以得频率拍摄10分钟,将得到个这样得向量数据。
抽象一点来说,每一个采样点数据都就是在维向量空间(此例中)内得一个向量,这里得就是牵涉得变量个数。由线形代数我们知道,在维向量空间中得每一个向量都就是一组正交基得线形组合。最普通得一组正交基就是标准正交基,实验采样得结果通常可以瞧作就是在标准正交基下表示得。举例来说,上例中每个摄像机记录得数据坐标为,这样得基便就是。那为什么不取或就是其她任意得基呢?原因就是,这样得标准正交基反映了数据得采集方式。假设采集数据点就是,一般并不会记录(在基下),因为一般得观测者都就是习惯于取摄像机得屏幕坐标,即向上与向右得方向作为观测得基准。也就就是说,标准正交基表现了数据观测得一般方式。
在线形代数中,这组基表示为行列向量线形无关得单位矩阵。
B、???基变换
从更严格得数学定义
文档评论(0)