网站大量收购独家精品文档,联系QQ:2885784924

PCA翻譯-郭亮-张力-中英文对照【一二审】金峰破破的桥_final.doc

PCA翻譯-郭亮-张力-中英文对照【一二审】金峰破破的桥_final.doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PCA翻譯-郭亮-张力-中英文对照【一二审】金峰破破的桥_final

主成分分析 原文链接: /wiki/index.php/PCA#Recovering_an_Approximation_of_the_Data 翻译:@交大基层代表 翻译内容:第一节至第四节 @Emma_lzhang 翻译内容:第五节至末尾 @Dr金峰 一审 @破破的桥 二审 1?引言 2实例与数学背景 3?数据旋转 4?数据降维 5?数据还原 6选择主成分个数 7?对图像数据应用PCA算法 8?参考文献 引言 主成分分析(PCA)是一种能够极大提升无监督特征学习速度的数据降维算法。更重要的是,理解PCA算法,对实现白化算法有很大的帮助,很多算法都先用白化算法作预处理步骤。 假设你使用图像来训练算法,因为图像中相邻的像素高度相关,输入数据是有一定冗余的。具体来说,假如我们正在训练的16x16灰度值图像, 记为一个256维向量?,其中特征值?对应每个像素的亮度值。由于相邻像素间的相关性,PCA算法可以将输入向量转换为一个维数低很多的近似向量,而且误差非常小。 实例和数学背景 在我们的实例中,使用的输入数据集表示为,维度n=2,即。假设我们想把数据从2维降到1维。(在实际应用中,我们也许需要把数据从256维降到50维;在这里使用低维数据,主要是为了更好地可视化算法的行为)。下图是我们的数据集: 这些数据已经进行了预处理,使得每个特征?和?具有相同的均值(零)和方差。 为方便展示,根据?值的大小,我们将每个点分别涂上了三种颜色之一,但该颜色并不用于算法而仅用于图解。 PCA算法将寻找一个低维空间来投影我们的数据。从下图中可以看出,?是数据变化的主方向,而是次方向。 也就是说,数据在?方向上的变化要比在方向上大。为更形式化地找出方向??和,我们首先计算出矩阵,如下所示: 假设x的均值为零,那么就是x的协方差矩阵。(符号,读Sigma,是协方差矩阵的标准符号。虽然看起来与求和符号比较像,但它们其实是两个不同的概念。) 可以证明,数据变化的主方向就是协方差矩阵的主特征向量,而是次特征向量。 注:如果你对如何得到这个结果的具体数学推导过程感兴趣,可以参看CS229(机器学习)PCA部分的课件(链接在本页底部)。但如果仅仅是想跟上本课,可以不必如此。 你可以通过标准的数值线性代数运算软件求得特征向量(见实现说明).我们先计算出协方差矩阵的特征向量,按列排放,而组成矩阵U: 此处,是主特征向量(对应最大的特征值),是次特征向量。以此类推,另记??为相应的特征值。 在本例中,向量?和?构成了一个新基,可以用来表示数据。令为训练样本,那么?就是样本点在维度上的投影的长度(幅值)。同样的,是投影到维度上的幅值。 数据旋转 至此,我们可以把x用?基表达为: (下标“rot”来源于单词“rotation”,意指这是原数据经过旋转(也可以说成映射)后得到的结果) 对数据集中的每个?样本分别进行旋转:?,然后把变换后的数据?显示在坐标图上,可得: 这就是把训练数据集旋转到?,?基后的结果。一般而言,运算 ?表示旋转到基?,, ...,之上的训练数据。矩阵U有正交性,即满足,所以若想将旋转后的向量?还原为原始数据,将其左乘矩阵U即可: 验算一下: 数据降维 数据的主方向就是旋转数据的第一维。因此,若想把这数据降到一维,可令: 更一般的,假如想把数据降到维表示(令),只需选取的前k个成分,分别对应前k个数据变化的主方向。 PCA的另外一种解释是:是一个n维向量,其中前几个成分可能比较大(例如,上例中大部分样本第一个成分的取值相对较大),而后面成分可能会比较小(例如,上例中大部分样本的较小)。 PCA算法做的其实就是丢弃中后面(取值较小)的成分,就是将这些成分的值近似为零。具体的说,设是的近似表示,那么将除了前k个成分外,其余全赋值为零,就得到: 在本例中,可得的点图如下(取): 然而,由于上面的后n-k项均为零,没必要把这些零项保留下来。所以,我们仅用前k个(非零)成分来定义k维向量。 这也解释了我们为什么会以为基来表示数据:要决定保留哪些成分变得很简单,只需取 还原近似数据 现在,我们得到了原始数据的低维“压缩”表征量, 反过来,如果给定,我们应如何还原原始数据呢?查看以往章节可知,要转换回来,只需即可。进一步,我们把看作将的最后?个元素被置0所得的近似表示,因此如果给定,可以通过在其末尾添加个0来得到对的近似,最后,左乘便可近似还原出原数据。具体来说,计算如下: 上面的等式基于先前对的定义。在实现时,我们实际上并不先给填0然后再左乘,因为这意味着大量的乘0运算。我们可用来与的前列相乘,即上式中最右项,来达到同样的目的。将该算法应用于本例中的数据集,可得如下关于重构数据的点图: 由图可见,我们

文档评论(0)

fv45ffsjjI + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档