- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一篇深入剖析PCA的好文
看到/u/jerrylead/JerryLead?写的一篇讲解PCA的博文,《/jerrylead/archive/2011/04/18/2020209.html主成分分析(Principal components analysis)-最大方差解释》,真心觉得好。让我对PCA有一个形象的理解。下面是原文:————————————————————————————————————————————/jerrylead/archive/2011/04/18/2020209.html主成分分析(Principal components analysis)-最大方差解释 在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。在写这篇之前,我阅读了PCA、SVD和LDA。这几个模型相近,却都有自己的特点。本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。PCA以前也叫做Principal factor analysis。1. 问题 真实的训练数据总是存在各种各样的问题:1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。2、 拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。我们知道要学好数学,需要有浓厚的兴趣,所以第二项与第一项强相关,第三项和第二项也是强相关。那是不是可以合并第一项和第二项呢?3、 拿到一个样本,特征非常多,而样例特别少,这样用回归去直接拟合非常困难,容易过度拟合。比如北京的房价:假设房子的特征是(大小、位置、朝向、是否学区房、建造年代、是否二手、层数、所在层数),搞了这么多特征,结果只有不到十个房子的样例。要拟合房子特征-房价的这么多特征,就会造成过度拟合。4、 这个与第二个有点类似,假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者出现频率也类似,是不是可以合成为一个特征呢?5、 在信号传输过程中,由于信道不是理想的,信道另一端收到的信号会有噪音扰动,那么怎么滤去这些噪音呢? 回顾我们之前介绍的《模型选择和规则化》,里面谈到的特征选择的问题。但在那篇中要剔除的特征主要是和类标签无关的特征。比如“学生的名字”就和他的“成绩”无关,使用的是互信息的方法。 而这里的特征很多是和类标签有关的,但里面存在噪声或者冗余。在这种情况下,需要一种特征降维的方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性。 下面探讨一种称作主成分分析(PCA)的方法来解决部分上述问题。PCA的思想是将n维特征映射到k维上(kn),这k维是全新的正交特征。这k维特征称为主元,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。2. PCA计算过程 首先介绍PCA的计算过程: 假设我们得到的2维数据如下:? 行代表了样例,列代表特征,这里有10个样例,每个样例两个特征。可以这样认为,有10篇文档,x是10篇文档中“learn”出现的TF-IDF,y是10篇文档中“study”出现的TF-IDF。也可以认为有10辆汽车,x是千米/小时的速度,y是英里/小时的速度,等等。?第一步分别求x和y的平均值,然后对于所有的样例,都减去对应的均值。这里x的均值是1.81,y的均值是1.91,那么一个样例减去均值后即为(0.69,0.49),得到??第二步,求特征协方差矩阵,如果数据是3维,那么协方差矩阵是? 这里只有x和y,求解得? 对角线上分别是x和y的方差,非对角线上是协方差。协方差大于0表示x和y若有一个增,另一个也增;小于0表示一个增,一个减;协方差为0时,两者独立。协方差绝对值越大,两者对彼此的影响越大,反之越小。?第三步,求协方差的特征值和特征向量,得到? 上面是两个特征值,下面是对应的特征向量,特征值0.0490833989对应特征向量为,这里的特征向量都归一化为单位向量。?第四步,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。 这里特征值只有两个,我们选择其中最大的那个,这里是1对应的特征向量是。?第五步,将样本点投影到选取的特征向量上。假设样例数为m,特征数为n,减去均值后的样本矩阵为DataAdjust(m*n),协方差矩阵是n*n,选取的k个特征向量组成的矩阵为EigenVectors(n*k)。那么投影后的数据FinalData为? 这里是 FinalData(10*1) = DataAdjust(10*2矩阵)×特征向量 得到结
您可能关注的文档
- UG练习指导五-六.doc
- Translationofpractice.doc
- VMware安装Debian教程.docx
- windows上做ios专项测试.doc
- WIN8改WIN7在步骤.doc
- word20072010邮件合并实现批量插入照片(工作证等制作).docx
- xx隧道洞口边仰坡临时防护.doc
- YFT-400DⅡ型液压轨缝调整器.docx
- YQBD液压起拔道器系列产品参数及工作原理.docx
- XX公司高炉凝结水回收装置技术规格书.doc
- 新外研版(3起)3年级上册英语全册教学课件(2024年新版教材).pptx
- 人教版8年级上册物理全册教学课件(2024年新版教材).pptx
- 2024年秋季新人教版7年级上册地理全册课件.pptx
- 人教版8年级上册物理全册课件(2024年新版教材).pptx
- 新人教版7年级上册地理全册教学课件(2024年新版教材).pptx
- 秋季新北师大版7年级上册数学全册大单元整体设计教学课件(2024年新版教材).pptx
- 秋季新北师大版7年级上册数学全册大单元整体设计教学课件.pptx
- 新沪科版7年级上册数学全册教学课件.pptx
- 新外研版(3起)3年级上册英语全册教学课件(2024年新教材).pptx
- 秋季新人教版7年级上册地理全册教学课件.pptx
文档评论(0)