网站大量收购独家精品文档,联系QQ:2885784924

机器学习与Python实践课件 03-03数据的降维.pptx

机器学习与Python实践课件 03-03数据的降维.pptx

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第三章数据的特征工程-降维1

本章目录201降维概述02SVD(奇异值分解)03PCA(主成分分析)

01降维概述1.降维概述302SVD(奇异值分解)03PCA(主成分分析)

1.降维概述4维数灾难(CurseofDimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。XX

1.降维概述5维数灾难维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。在机器学习的建模过程中,通常指的是随着特征数量的增多,计算量会变得很大,如特征达到上亿维的话,在进行计算的时候是算不出来的。有的时候,维度太大也会导致机器学习性能的下降,并不是特征维度越大越好,模型的性能会随着特征的增加先上升后下降。

1.降维概述6什么是降维?降维(DimensionalityReduction)是将训练数据中的样本(实例)从高维空间转换到低维空间,该过程与信息论中有损压缩概念密切相关。同时要明白的,不存在完全无损的降维。有很多种算法可以完成对原始数据的降维,在这些方法中,降维是通过对原始数据的线性变换实现的。

1.降维概述7为什么要降维·高维数据增加了运算的难度·高维使得学习算法的泛化能力变弱(例如,在最近邻分类器中,样本复杂度随着维度成指数增长),维度越高,算法的有哪些信誉好的足球投注网站难度和成本就越大。●降维能够增加数据的可读性,利于发掘数据的有意义的结构

1.降维概述8降维的主要作用1.减少冗余特征,降低数据维度2.数据可视化

1.降维概述9减少冗余特征假设我们有两个特征:x?:长度用厘米表示的身高;x?:是用英寸表示的身高。这两个分开的特征x?和x?,实际上表示的内容相同,这样其实可以减少数据到一维,只有一个特征表示身高就够了。很多特征具有线性关系,具有线性关系的特征很多都是冗余的特征,去掉冗余特征对机器学习的计算结果不会有影响。

1.降维概述10数据可视化t-distributedStochasticNeighborEmbedding(t-SNE)t-SNE(TSNE)将数据点之间的相似度转换为概率。原始空间中的相似度由高斯联合概率表示,嵌入空间的相似度由“学生t分布”表示。虽然Isomap,LLE和variants等数据降维和可视化方法,更适合展开单个连续的低维的manifold。但如果要准确的可视化样本间的相似度关系,如对于下图所示的S曲线(不同颜色的图像表示不同类别的数据),t-SNE表现更好。因为t-SNE主要是关注数据的局部结构。

1.降维概述11降维的优缺点降维的优点:·通过减少特征的维数,数据集存储所需的空间也相应减少,减少了特征维数所需的计算训练时间;·数据集特征的降维有助于快速可视化数据;·通过处理多重共线性消除冗余特征。降维的缺点:·由于降维可能会丢失一些数据;·在主成分分析(PCA)降维技术中,有时需要考虑多少主成分是难以确定的,往往使用经验法则

1.降维概述121210481021210x121

2.SVD(奇异值分解)1301降维概述02SVD(奇异值分解)03PCA(主成分分析)

2.SVD(奇异值分解)14奇异值

文档评论(0)

长情又很酷 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档