- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PCA原理及举例
PCA 原理及举例
首先对PCA 做一个简单的介绍:
PCA 是主成分分析,主要用于数据降维,对于一系列sample (样本)的feature (特征)组
成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的sample 中
都为1,或者与1 差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会
非常小。所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不
大的维,从而使feature 留下的都是“精品”,而且计算量也变小了。
对于一个k 维的feature 来说,相当于它的每一维feature 与其他维都是正交的(相当于在多
维坐标系中,坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个feature
在某些维上方差大,而在某些维上方差很小。例如,一个45 度倾斜的椭圆,在第一坐标系,
如果按照x,y 坐标来投影,这些点的x 和y 的属性很难用于区分他们,因为他们在x,y 轴上
坐标变化的方差都差不多,我们无法根据这个点的某个x 属性来判断这个点是哪个,而如果
将坐标轴旋转,以椭圆长轴为x 轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的
分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分
性比x,y 轴的方法要好!
所以我们的做法就是求得一个k 维特征的投影矩阵,这个投影矩阵可以将feature 从高维降
到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交,特征向量都是正
交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些特征向量就可
以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。
举一个例子:
对于一个训练集,100 个sample,特征是10 维,那么它可以建立一个100*10 的矩阵,作为
样本。求这个样本的协方差矩阵,得到一个10*10 的协方差矩阵,然后求出这个协方差矩阵
的特征值和特征向量,应该有10 个特征值和特征向量,我们根据特征值的大小,取前四个
特征值所对应的特征向量,构成一个10*4 的矩阵,这个矩阵就是我们要求的特征矩阵,
100*10 的样本矩阵乘以这个10*4 的特征矩阵,就得到了一个100*4 的新的降维之后的样本
矩阵,每个sample 的维数下降了。
当给定一个测试的特征集之后,比如1*10 维的特征,乘以上面得到的10*4 的特征矩阵,便
可以得到一个1*4 的特征,用这个特征去分类。
所以做PCA 实际上是求得这个投影矩阵,用高维的特征乘以这个投影矩阵,便可以将高维
特征的维数下降到指定的维数。
PCA 在matlab 中的实现举例
参考来源
以上资料来自:/s/blog_6e7e94bc0100s8i5.html
/view/852194.htm
(百科中的一部分内容由笔者添加)
本文档笔者的IT 技术博客:/
以下资料来自matlab 的help,翻译和注解部分由笔者添加:(重点部分添加了翻译!)
princomp函数名称
Principal component analysis (PCA) on data
Syntax函数调用语法
[COEFF,SCORE] = princomp(X)
[COEFF,SCORE,latent] = princomp(X)
[COEFF,SCORE,latent,tsquare] = princomp(X)
[...] = princomp(X,econ)
Description 函数描述
COEFF = princomp(X) performs principal components analysis (PCA) on the n-by-p data matrix X,
and returns the principal component coefficients, also known as loadings. Rows of X correspond
to observations, columns to variables. COEFF is a p-by-p matrix, each column containing
coefficients for one principal component. The columns are in order of decreasing component
variance.
在n 行p
文档评论(0)