- 1、本文档共66页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第9章
降维分析
“化繁为简”
本章目录降维的动机和可能性主成分分析隐语义模型非负矩阵分解本章小结
本章目录降维的动机和可能性主成分分析隐语义模型非负矩阵分解本章小结
1.降维概述何为降维?数据在产生的过程中通常只受到有限的因素影响,而且这些因素通常是相互独立。降维是将样本点在原始空间中用高维变量进行描述,即高维度的变量可以在低维空间中表示。有很多种算法可以完成对原始数据的降维,在这些方法中,降维是通过对原始数据的线性变换实现的。
1.降维概述如图所示,我们将像素大小为的手部动作图降维到2维空间中。手腕的动作本质上由手指的伸展和手腕的转动2个因素构成。手部动作降维结果因此,尽管图像像素的大小为4096,我们仍可以用2维平面空间对高维数据之间的结构进行保持。
1.降维概述1.减少冗余特征,降低数据维度2.数据可视化降维的主要作用
1.降维概述降维的优缺点降维的优点:通过减少特征的维数,数据集存储所需的空间也相应减少,减少了特征维数所需的计算训练时间;数据集特征的降维有助于快速可视化数据;通过处理多重共线性消除冗余特征。降维的缺点:由于降维可能会丢失一些数据;在主成分分析(PCA)降维技术中,有时需要考虑多少主成分是难以确定的,往往使用经验法则
2.PCA(主成分分析)01降维概述02PCA(主成分分析)03隐语义模型04非负矩阵分解05本章小结
2.PCA(主成分分析)在降维过程中,完全保留高维数据的全部信息是不现实的任务。因此,问题是该如何才能尽可能地保留高维数据的“本质”信息?假设,训练集为,其中,样本为(),。低维空间()被函数映射到高维数据(),其中,维度满足。一种保留高维数据信息的方式是让低维数据能够重构高维数据:
2.1主成分分析的目标函数?(1)低维数据到高维数据的重构(2)投影矩阵是正交变换
2.1主成分分析的目标函数(1)低维数据到高维数据的重构假定,训练集为,其中,样本为(),。我们将样本排列成矩阵,降维后的矩阵为:,其中,矩阵是高维矩阵变换为低维矩阵的变换矩阵:
(2)投影矩阵是正交变换2.1主成分分析的目标函数现在,我们需要让低维表示重构原始样本。根据投影矩阵公式(9.2),重构后的高维数据可以表示为:公式(9.3)说明向量和向量在下标时相互正交,。主成分分析用重构误差最小的方式求解低维表示:
2.2主成分分析目标函数的优化[问题]如何对主成分分析目标函数(9.5)进行优化?我们将主成分分析的目标函数(9.5)展开:将变换矩阵(9.4)代入公式(9.6),我们可得:
2.2主成分分析目标函数的优化)我们利用正交变换对公式(9.7)的目标函数简化为:
2.2主成分分析目标函数的优化如果,我们使用矩阵的迹(trace)来表示运算,公式(9.8)可以进一步化简为:从化简的目标函数(9.9)看,主成分分析就是最大化各样本点在低维空间中的方差之和。
2.2主成分分析目标函数的优化[猜想]因为是在正交空间中的投影,从几何分布上讲,最大化意味着让数据在低维空间中尽可能地“展开”而不是收缩到一个点上。将带入,我们可以得到:假设,,目标函数公式(9.9)可以改写成矩阵形式:
2.2主成分分析目标函数的优化[问题]如何优化目标函数(9.11)?[猜想]因为,投影矩阵的各个投影向量相互正交。所以,我们可以对投影向量,()分别求解。我们将带约束的优化问题(9.11)转换为拉格朗日函数:令拉格朗日函数对求偏导并等于0:
2.2主成分分析目标函数的优化所以,由公式(9.14)可知,如果我们要使得目标函数(9.11)最大,应该是协方差矩阵的最大特征值而投影向量为对应的特征向
文档评论(0)