机器学习好钢用在刀刃上降维.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

从几何意义来看,主成分分析是要将原始数据拟合成新的n维椭球体,这个椭球体的每个轴代表着

一个主成分。如果椭球体的某个轴线较短,那么该轴线所代表的主成分的方差也很小。在数据集的

表示中省略掉该轴线以及其相应的主成分,只会丢失相当小的信息量。具体说来,主成分分析遵循

如下的步骤:

数据规范化:对m个样本的相同属性值求出算术平均数,再用原始数据减去平均数,得到规范化

后的数据;

协方差矩阵计算:对规范化后的新样本计算不同属性之间的协方差矩阵,如果每个样本有n个属

性,得到的协方差矩阵就是n维方阵;

特征值分解:求解协方差矩阵的特征值和特征向量,并将特征向量归一化为单位向量;

降维处理:将特征值按照降序排序,保留其中最大的k个,再将其对应的k个特征向量分别作为

列向量组成特征向量矩阵;

数据投影:将减去均值后的m×n维数据矩阵和由k个特征向量组成的n×k维特征向量矩阵相

乘,得到的m×k维矩阵就是原始数据的投影。

经过这几步简单的数算后,原始的n维特征就被映射到新的k维特征之上。这些相互正交的新

特征就是主成分。需要注意的是,主成分分析中降维的实现并不是简单地在原始特征中选择一些保

留,而是利用原始特征之间的相关性重新构造出新的特征。

为什么简单的数算能够带来良好的效果呢?

从线性空间的角度理解,主成分分析可以看成将正交空间中的样本点以最小误差映射到一个超平面

上。如果这样的超平面存在,那它应该具备以下的性质:一方面,不同样本点在这个超平面上的投

影要尽可能地分散;另一方面,所有样本点到这个超平面的距离都应该尽可能小。

样本点在超平面上的投影尽可能分散体现出的是最大方差原理。在信号处理理论中,当信号的均值

为零时,方差反映的就是信号的能量,能量越大的信号对抗噪声和干扰的能力也就越强。而让投影

后样本点的方差最大化,就是要让超平面上的投影点尽可能地分散。如果原始信号的投影都集中在

超平面的同一个区域,不同的信号之间就会难以区分。

iTT

在数学上,投影后所有样本点的方差可以记作WxxW,式中每个n维向量x都代表具有n个属iii

性的样本点,W则是经过投影变换后得到的新坐标系。

最大方差要求的正是求解最优的W,以使前面的方差表达式,也就是对应矩阵所有对角线元素的和

最大化。经过数学处理后可以得到,使方差最大化的W就是由所有最大特征值的特征向量组合在一

起形成的,也就是主成分分析的解。

性回归中,我向你介绍了最小均方误差的概念,主成分分析的最优性也可以从这个角度来审

视。所有样本点到这个超平面的距离都应该尽可能小,意味着这些点到平面距离之和同样最小。原

T

始样本点在低维超平面上的投影的表达式是z=(z;z;⋯;z),其中每个z=wx是原始样本点x

ii1i2ikijjii

在低维超平面上第j维上的坐标。

k

因而,原始样本点和在投影超平面上重构出的样本点之间的距离可以表示为j=1zw−x,在整2

ijji2

个训练集上对距离求和并最小化,求出的解就是最小均方误差意义下的最优超平面。经过数学处理

后可以得到,使均方误差最小化的W就是由所有最大特征值的特征向量组合在一起形成的,同样是

主成分分析的解。

在主成分分析中,保留的主成分的数目是由用户来确定的。一个经验方法是保留所有大于1的特征

值,以其对应的特征向量来做坐标变换。此外,也可以根据不同特征值在整体中的贡献,以一定比

例进行保留。具体方

文档评论(0)

wx5620 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档