基于机器学习的成分数据补全研究.docx

基于机器学习的成分数据补全研究.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于机器学习的成分数据补全研究

?

?

高雪云

一、引言

给缺失数据填补一个合理的估计值,可以减小由数据缺失而导致的估计量偏差,结合一定的方法,为数据的缺失值寻找一个或多个尽可能相似的值进行填补,得到完整的数据,由于填补值毕竟是“假信息”,因此,利用不同的信息进行填补,所要追求的只是确定填补方法的有效性和合理性,使估计的填补值尽可能地接近原始的缺失数据值.

二、基于核空间非线性距离敏感重构的主动学习

在大数据时代,机器学习问题中可能涉及的数据量规模是非常庞大的,完全标注所有数据是不现实,也是不必要的.在这一部分,我们将提出一种有效的主动学习算法.该算法可以选择出那些最重要的、最有信息含量的数据点进行标注,使得数据标注更加有效.然后,我们进一步推广了胡尧等人的工作,提出了一种基于核空间非线性距离敏感重构的主动学习算法,能够自动学习数据分布的非线性关系,通过非线性重构进一步扩大标注点的表达能力,从而减少所需要标注的数据点的规模[1].

(一)主成分分析(PCA)原理及其应用

在实际问题研究中,多变量问题是经常会遇到的.变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的.

为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生.为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失.主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法.

(二)奇异值分解(SVD)与主成分分析(PCA)的关系

PCA的全部工作简单点说,就是对原始的空间中顺序地找一组相互正交的坐标轴,第一个轴是使得方差最大的,第二个轴是在与第一个轴正交的平面中使得方差最大的,第三个轴是在与第1、2个轴正交的平面中方差最大的,这样假设在N维空间中,我们可以找到N个这样的坐标轴,我们取前r个去近似这个空间,这样就从一个N维的空间压缩到r维的空间了,但是我们选择的r个坐标轴能够使得空间的压缩使得数据的损失最小.

还是假设我们矩阵每一行表示一个样本,每一列表示一个feature,用矩阵的语言来表示,将一个m×n的矩阵A的进行坐标轴的变化,P就是一个变换的矩阵从一个N维的空间变换到另一个N维的空间,在空间中就会进行一些类似于旋转、拉伸的变化.

Am×nPn×n=A~m×n.

而将一个m×n的矩阵A变换成一个m×r的矩阵[2],这样就会使得本来有n个feature的,变成了有r个feature了(rn),这r个其实就是对n个feature的一种提炼,我们就把这个称为feature的压缩.用数学语言表示就是:p

Am×nPn×r=A~m×r.

但是这个怎么和SVD扯上关系呢?SVD得出的奇异向量是从奇异值由大到小排列的,按PCA的观点来看,就是方差最大的坐标轴就是第一个奇异向量,方差次大的坐标轴就是第二个奇异向量,由下面的SVD式子:

Am×n≈Um×r∑r×rVTr×n.

在矩阵的两边同时乘上一个矩阵V,由于V是一个正交的矩阵,所以V转置乘V得到单位阵I,所以可以化成后面的式子

Am×nVr×n≈Um×r∑r×rVTr×nVr×n,

Am×nVr×n≈Um×r∑r×r.

将后面的式子与A×P那个m×n的矩阵变换为m×r的矩阵的式子对照看看,在这里,其实V就是P,也就是一个变化的向量.这里是将一个m×n的矩阵压缩到一个m×r的矩阵,也就是对列进行压缩,如果我们想对行进行压缩,同样我们写出一个通用的行压缩例子:

Pr×mAm×n=A~r×n.

这样就从一个m行的矩阵压缩到一个r行的矩阵了,对SVD来说也是一样的,我们对SVD分解的式子两边乘U的转置

UTr×mAm×n≈∑r×rVTr×n.

这样我们就得到了对行进行压缩的式子.可以看出,其实PCA几乎可以说是对SVD的一个包装,如果我们实现了SVD,那也就实现了PCA了,而且更好的地方是,有了SVD,我们就可以得到两个方向的PCA,如果我们对A′A进行特征值的分解,只能得到一个方向的PCA.

(三)利用奇异值分解(SVD)进行图像处理

先对图像进行灰度处理,转化为二维图像,然后利用SVD算法,对图片进行压缩处理,结果分析如下:

秩k越大,图像重构越完善,图像越清晰,但压缩后图片比较大;

秩k越小,图像重构越粗糙,图像越模糊,但压缩后图像比较小.

(四)结语与展望

1.结论

众所周知,國内外学者已提出了很多方法来处理成分数据的缺失值.本文考虑到成分数据的特殊几何结构和成分数据间存在多重共线性和异常值的情况,在K.Hrmn等人提出的k近邻填补法和基于k近邻的迭代回归填补法的基础上,对成分数据的缺失值填补提出了几种新方法.

(1)针对成分数据存在多

文档评论(0)

有志者事竟成 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7114163151000053

1亿VIP精品文档

相关文档