网站大量收购独家精品文档,联系QQ:2885784924

《数据挖掘与机器学习》 课件5.1.2 数据降维、处理玻璃成分数据.pptxVIP

《数据挖掘与机器学习》 课件5.1.2 数据降维、处理玻璃成分数据.pptx

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据挖掘与机器学习

MACHINELEARNINc

DATAMINING

8南宁职业技术学院

NCVTNANNINGCOLLEGEFORVOCATIONALTECHNOLOGY

处理玻璃成分数据

加工厂玻璃类别识别——决策树、随机森林

数据预处理是数据分析的基础,基础不牢,地动山摇,因此,数据预处理是关键一步。

打好坚实的基础才能为之后的腾飞做好准备。

数据预处理的具体目标是将不同格式和单位的数据,整合为同一形式,便于之后的数据分析。

本任务将主要对加工厂生产的玻璃进行数据的预处理,包括数据集的划分、数据的标准化,以及通过PCA降维,提取数据集的主要特征。

处理玻璃成分数据

任务描述

利用sklearn库进行标准差标准化。

利用sklearn库进行PCA降维。

处理玻璃成分数据

任务要求

Part1相关知识

·数据标准化

·数据降维

什么是数据降维?

数据降维是一种数据预处理技术,它通过减少数据中的冗余信息,来降低数据的维度,同时尽量保留原始数据的重要特征。

处理玻璃成分数据

数据降维

去除冗余信息。数据通常

包含很多冗余信息,这些信息可能对分析和建模没有任何帮助。通过降维,

可以去除这些冗余信息,

提高数据的效率和准确性。

减少计算成本。在大规模数据集上进行计算是一项非常耗时的任务,通过降低数据维度,可以减少计算成本,并且加快算法的执行速度。

易于可视化。通过将

数据降低到较低的维度,可以更容易地可视化和理解数据。

数据降维

数据降维的意义

处理玻璃成分数据

将数据投影到一个新的低维空间,同

时最大化类间距离,最小化类内距离

将高维数据映射到低维空间,并尽可能保留原始数据的信息

线性判别分析

(LDA)

主成分分析

(PCA)

常见的数据降维方法

处理玻璃成分数据

数据降维

什么是线性判别分析?

·线性判别分析是一种经典的线性降维技术,也是一种常用的分类方法。用于在多类分类问题中寻找一个线性判别函数,能够最大程度地区分不同类别之间的差异。

·线性判别分析的基本思想是,将数据投影到一条直线或一个超平面上,使得同一类别的数据点尽量靠近,不同类别的数据点尽量远离。投影

后,根据每个数据点在这条直线上的位置进行分类。

处理玻璃成分数据

线性判别分析

对于给定的数据集,LDA的目标是找到一个线性判别函数y=f(x),通过

将数据点投影到一维或多维的超平面,使得同一类内的数据点尽可能地接近,不同类之间的数据点尽可能地分开。

该线性判别函数可以表示为:y=W6一偏置

投影向量

处理玻璃成分数据

线性判别分析

LDA的目标是最大化类间方差,最小化类内方差。

类间散度矩阵

类内散度矩阵

其中,SB、Sw可以通过计算各类的均值向量和协方差矩阵得到。

处理玻璃成分数据

线性判别分析

线性判别分析

通过求解上述优化问题,可以得到最优的投影向量w,并将数据点投影到该向量上进行分类。

使用sklearn库中的LinearDiscriminantAnalysis类实现线性判别分析,其基本

使用格式如下。

classsklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver=svd,

shrinkage=None,priors=None,n_components=None,store_covariance=False,tol=0.0001)

处理玻璃成分数据

线性判别分析

LinearDiscriminantAnalysis类常用参数及其说明如下。

priors

_components

store_covariance

参数名称

solver

处理玻璃成分数据

线性判别分析

shrinkage

什么是主成分分析法?

·PCA降维可以提高计算效率,同时提高模型效果和泛化能力,从而在实际应用中具有重要的意义和应用价值。

·PCA降维的基本思想是找到一个新的坐标系,使得数据在新的坐标系下具有最大的方差。换句话说,PCA降维通过线性变换将原始数据映射到新的坐标系中,使得数据在新的坐标系下的方差最大化,从而找

到数据中最重要的方向(即主成分)。

处理玻璃成分数据

主成分分析

如何计算协方差矩阵?

·在主成分分析中,先对原始数据进行标准化,再计算协方差矩阵,协方差矩阵反映了数据中各个变量之间的相关性。

·设有x=(x₁,x₂,…,xp)

文档评论(0)

乐毅淘文斋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8121131046000040

1亿VIP精品文档

相关文档