PCA翻譯-郭亮-张力-中英文对照【一二审】金峰破破的桥_final.doc

下载文档 降价啦

1
0
约4.21千字
约 13页
2017-01-19 发布于重庆
举报
版权申诉
保障服务

PCA翻譯-郭亮-张力-中英文对照【一二审】金峰破破的桥_final.doc

1、本文档共13页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

PCA翻譯-郭亮-张力-中英文对照【一二审】金峰破破的桥_final

主成分分析原文链接： /wiki/index.php/PCA#Recovering_an_Approximation_of_the_Data 翻译：@交大基层代表翻译内容：第一节至第四节 @Emma_lzhang 翻译内容：第五节至末尾 @Dr金峰一审 @破破的桥二审 1?引言 2实例与数学背景 3?数据旋转 4?数据降维 5?数据还原 6选择主成分个数 7?对图像数据应用PCA算法 8?参考文献引言主成分分析（PCA）是一种能够极大提升无监督特征学习速度的数据降维算法。更重要的是，理解PCA算法，对实现白化算法有很大的帮助，很多算法都先用白化算法作预处理步骤。假设你使用图像来训练算法，因为图像中相邻的像素高度相关，输入数据是有一定冗余的。具体来说，假如我们正在训练的16x16灰度值图像，记为一个256维向量?，其中特征值?对应每个像素的亮度值。由于相邻像素间的相关性，PCA算法可以将输入向量转换为一个维数低很多的近似向量，而且误差非常小。实例和数学背景在我们的实例中，使用的输入数据集表示为，维度n=2，即。假设我们想把数据从2维降到1维。（在实际应用中，我们也许需要把数据从256维降到50维；在这里使用低维数据，主要是为了更好地可视化算法的行为）。下图是我们的数据集：这些数据已经进行了预处理，使得每个特征?和?具有相同的均值（零）和方差。为方便展示，根据?值的大小，我们将每个点分别涂上了三种颜色之一，但该颜色并不用于算法而仅用于图解。 PCA算法将寻找一个低维空间来投影我们的数据。从下图中可以看出，?是数据变化的主方向，而是次方向。也就是说，数据在?方向上的变化要比在方向上大。为更形式化地找出方向??和，我们首先计算出矩阵，如下所示：假设x的均值为零，那么就是x的协方差矩阵。（符号，读Sigma，是协方差矩阵的标准符号。虽然看起来与求和符号比较像，但它们其实是两个不同的概念。）可以证明，数据变化的主方向就是协方差矩阵的主特征向量，而是次特征向量。注：如果你对如何得到这个结果的具体数学推导过程感兴趣，可以参看CS229（机器学习）PCA部分的课件（链接在本页底部）。但如果仅仅是想跟上本课，可以不必如此。你可以通过标准的数值线性代数运算软件求得特征向量（见实现说明）.我们先计算出协方差矩阵的特征向量，按列排放，而组成矩阵U：此处，是主特征向量（对应最大的特征值），是次特征向量。以此类推，另记??为相应的特征值。在本例中，向量?和?构成了一个新基，可以用来表示数据。令为训练样本，那么?就是样本点在维度上的投影的长度（幅值）。同样的，是投影到维度上的幅值。数据旋转至此，我们可以把x用?基表达为：（下标“rot”来源于单词“rotation”，意指这是原数据经过旋转（也可以说成映射）后得到的结果）对数据集中的每个?样本分别进行旋转：?，然后把变换后的数据?显示在坐标图上，可得：这就是把训练数据集旋转到?,?基后的结果。一般而言，运算 ?表示旋转到基?,, ...,之上的训练数据。矩阵U有正交性，即满足，所以若想将旋转后的向量?还原为原始数据，将其左乘矩阵U即可：验算一下：数据降维数据的主方向就是旋转数据的第一维。因此，若想把这数据降到一维，可令：更一般的，假如想把数据降到维表示（令），只需选取的前k个成分，分别对应前k个数据变化的主方向。 PCA的另外一种解释是：是一个n维向量，其中前几个成分可能比较大（例如，上例中大部分样本第一个成分的取值相对较大），而后面成分可能会比较小（例如，上例中大部分样本的较小）。 PCA算法做的其实就是丢弃中后面（取值较小）的成分，就是将这些成分的值近似为零。具体的说，设是的近似表示，那么将除了前k个成分外，其余全赋值为零，就得到：在本例中，可得的点图如下（取）：然而，由于上面的后n-k项均为零，没必要把这些零项保留下来。所以，我们仅用前k个（非零）成分来定义k维向量。这也解释了我们为什么会以为基来表示数据：要决定保留哪些成分变得很简单，只需取还原近似数据现在，我们得到了原始数据的低维“压缩”表征量，反过来，如果给定，我们应如何还原原始数据呢？查看以往章节可知，要转换回来，只需即可。进一步，我们把看作将的最后?个元素被置0所得的近似表示，因此如果给定，可以通过在其末尾添加个0来得到对的近似，最后，左乘便可近似还原出原数据。具体来说，计算如下：上面的等式基于先前对的定义。在实现时，我们实际上并不先给填0然后再左乘，因为这意味着大量的乘0运算。我们可用来与的前列相乘，即上式中最右项，来达到同样的目的。将该算法应用于本例中的数据集，可得如下关于重构数据的点图：由图可见，我们