- 1、本文档共21页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《浅谈
浅谈PCA和KPCA主要谈谈PCA的假设条件和缺点。??????? PCA有以下几个假设条件:??????? (1)线性(Linearity):基变换的条件,即新得到的正交基可以由之间基的线性组合得到。目前有研究将这个条件转换到非线性条件下,例如Kernel PCA。??????? (2)大方差对应重要数据结构(Large variances have important structure):等同于另一个假设:数据对应高的信噪比。方差大对应重要的数据结构,同时对应低的噪声。这是一个很强的假设,但是有时确是不对的。??????? (3)主成分之间正交(The principal components are orthogonal):这个假设使得PCA的求解可以采用线性代数分解技术实现,如特征值分解和SVD。??????? PCA的缺点:??????? (1)当样本点具有一些非线性性质时,采用PCA得到的降维结果无法反映出样本点之间所隐藏的非线性性质。??????? (2)PCA能找到很好的代表所有样本点的方向,但这个方向对于分类未必是最有利的。??????? (3)对PCA所要保持的主分量的个数的估计比较困难。虽然可以通过样本点中心化矩阵的相邻奇异值之间的比值大小、或者采用特征值所占百分比(例如大于85%)的方法来确定主分量个数,但是当奇异值大小变化比较平缓时,难以估计应该舍弃哪些分量。??????? (4)在有些情况下,难以对PCA所保持的主分量的意义进行解释。例如降维结果中的负值。一、什么是PCA PCA是Principal component analysis的缩写,中文翻译为主元分析。它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化,有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。 它的优点是简单,而且无参数限制,具有普适性。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。但PCA模型本身也存在诸多的假设条件,决定它存在一定的限制,在有些场合可能造成效果不好甚至失效。 在以下的章节中,不仅有对PCA的比较直观的解释,同时也配有较为深入的分析。首先将从一个简单的例子开始说明PCA应用的场合以及想法的由来,进行一个比较直观的解释;然后加入数学的严格推导,引入线形代数,进行问题的求解。随后将揭示PCA与SVD(Singular Value Decomposition)之间的联系以及如何将之应用于真实世界。最后将分析PCA理论模型的假设条件以及针对这些条件可能进行的改进。二、线性代数的角度看:基变换 从线形代数的角度来看,PCA的目标就是使用另一组正交基去重新描述得到的数据空间。而新的基要能尽量揭示原有的数据间的关系,即最重要的主元,PCA的目标就是找到这样的“主元”,最大程度的去除冗余和噪音的干扰 这里提出了PCA方法的一个最关键的假设:线性。这是一个非常强的假设条件。它使问题得到了很大程度的简化:1)数据被限制在一个向量空间中,能被一组基表示;2)隐含的假设了数据之间的连续性关系。这样一来数据就可以被表示为各种基的线性组合。问题:在线性的假设条件下,问题转化为寻找一组变换后的基,怎样才能最好的表示原数据?基怎么选取才是最好的?解决问题的关键是如何体现数据的特征,那么什么是数据的特征,应该如何体现呢?“最好的表示”是什么意思呢?在线性系统中,所谓的“混乱数据”通常包含以下的三种成分:噪音、旋转以及冗余。去除噪音、冗余等后的数据就是“最好的表示”,这也是PCA降维思想的本源。三、协方差矩阵 争对上面的说明,如何来衡量各个观测变量之间是否出现冗余的情况,我们可以借助协方差来进行衡量和判断。协方差矩阵包含了所有观测变量之间的相关性度量。更重要的是,这些相关性度量反映了数据的噪音和冗余的程度:在对角线上的元素越大,表明信号越强,变量的重要性越高;元素越小则表明可能是存在的噪音或是次要变量在非对角线上的元素大小则对应于相关观测变量对之间冗余程度的大小 一般情况下,初始数据的协方差矩阵总是不太好的,表现为信噪比不高且变量间相关度大。PCA的目标就是通过基变换对协方差矩阵进行优化,找到相关“主元”。那么,如何进行优化呢,我们通过对协方差矩阵进行对角化。 PCA的求解:特征根的求解四、PCA的假设与局限 PCA的模型中存在诸多的假设条件,决定了它存在一定的限制,在有些场合可能会造成效果不好甚至失效。PCA的假设条件包括:1. 线形性假设。 如同文章开始的例子,PCA的内部模型是线性的。这也就决定了它能进行的主元分析之间的关系也是线性的。现在比较流行的kernel-PCA的一类方法就是使用非线性
您可能关注的文档
最近下载
- 沪教版七年级数学上学期考试满分全攻略第10章分式【单元提升卷】(沪教版)(原卷版+解析).docx VIP
- 学生心存感恩主题国旗下讲话稿.docx VIP
- 《妇幼保健学》课件——第十二章 围绝经期保健.pptx VIP
- 2024年全国职业院校技能大赛中职组(舞蹈表演赛项)考试题库(含答案)_已识别.pdf VIP
- 译林四上 Project1 教学课件.ppt VIP
- 乳腺癌的护理常规课件.pptx
- 2023年驾培相关项目运行指导方案.pdf VIP
- 个案工作 第八章-儿童辅导.pptx VIP
- 2024年山西航空产业集团有限公司人员招聘考试题库及答案解析.docx
- 运动解剖学(李世昌)第4章 消化系统.ppt VIP
文档评论(0)