- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据挖掘与机器学习
MACHINELEARNINc
厨
DATAMINING
8南宁职业技术学院
NCVTNANNINGCOLLEGEFORVOCATIONALTECHNOLOGY
处理玻璃成分数据
加工厂玻璃类别识别——决策树、随机森林
数据预处理是数据分析的基础,基础不牢,地动山摇,因此,数据预处理是关键一步。
打好坚实的基础才能为之后的腾飞做好准备。
数据预处理的具体目标是将不同格式和单位的数据,整合为同一形式,便于之后的数据分析。
本任务将主要对加工厂生产的玻璃进行数据的预处理,包括数据集的划分、数据的标准化,以及通过PCA降维,提取数据集的主要特征。
处理玻璃成分数据
任务描述
利用sklearn库进行标准差标准化。
利用sklearn库进行PCA降维。
处理玻璃成分数据
任务要求
Part1相关知识
·数据标准化
·数据降维
什么是数据降维?
数据降维是一种数据预处理技术,它通过减少数据中的冗余信息,来降低数据的维度,同时尽量保留原始数据的重要特征。
处理玻璃成分数据
数据降维
去除冗余信息。数据通常
包含很多冗余信息,这些信息可能对分析和建模没有任何帮助。通过降维,
可以去除这些冗余信息,
提高数据的效率和准确性。
减少计算成本。在大规模数据集上进行计算是一项非常耗时的任务,通过降低数据维度,可以减少计算成本,并且加快算法的执行速度。
易于可视化。通过将
数据降低到较低的维度,可以更容易地可视化和理解数据。
数据降维
数据降维的意义
处理玻璃成分数据
将数据投影到一个新的低维空间,同
时最大化类间距离,最小化类内距离
将高维数据映射到低维空间,并尽可能保留原始数据的信息
线性判别分析
(LDA)
主成分分析
(PCA)
常见的数据降维方法
处理玻璃成分数据
数据降维
什么是线性判别分析?
·线性判别分析是一种经典的线性降维技术,也是一种常用的分类方法。用于在多类分类问题中寻找一个线性判别函数,能够最大程度地区分不同类别之间的差异。
·线性判别分析的基本思想是,将数据投影到一条直线或一个超平面上,使得同一类别的数据点尽量靠近,不同类别的数据点尽量远离。投影
后,根据每个数据点在这条直线上的位置进行分类。
处理玻璃成分数据
线性判别分析
对于给定的数据集,LDA的目标是找到一个线性判别函数y=f(x),通过
将数据点投影到一维或多维的超平面,使得同一类内的数据点尽可能地接近,不同类之间的数据点尽可能地分开。
该线性判别函数可以表示为:y=W6一偏置
投影向量
处理玻璃成分数据
线性判别分析
LDA的目标是最大化类间方差,最小化类内方差。
类间散度矩阵
类内散度矩阵
其中,SB、Sw可以通过计算各类的均值向量和协方差矩阵得到。
处理玻璃成分数据
线性判别分析
线性判别分析
通过求解上述优化问题,可以得到最优的投影向量w,并将数据点投影到该向量上进行分类。
使用sklearn库中的LinearDiscriminantAnalysis类实现线性判别分析,其基本
使用格式如下。
classsklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver=svd,
shrinkage=None,priors=None,n_components=None,store_covariance=False,tol=0.0001)
处理玻璃成分数据
线性判别分析
LinearDiscriminantAnalysis类常用参数及其说明如下。
priors
_components
store_covariance
参数名称
solver
处理玻璃成分数据
线性判别分析
shrinkage
什么是主成分分析法?
·PCA降维可以提高计算效率,同时提高模型效果和泛化能力,从而在实际应用中具有重要的意义和应用价值。
·PCA降维的基本思想是找到一个新的坐标系,使得数据在新的坐标系下具有最大的方差。换句话说,PCA降维通过线性变换将原始数据映射到新的坐标系中,使得数据在新的坐标系下的方差最大化,从而找
到数据中最重要的方向(即主成分)。
处理玻璃成分数据
主成分分析
如何计算协方差矩阵?
·在主成分分析中,先对原始数据进行标准化,再计算协方差矩阵,协方差矩阵反映了数据中各个变量之间的相关性。
·设有x=(x₁,x₂,…,xp)
您可能关注的文档
- 《汽车节能与新能源技术应用》高职PPT完整全套教学课件.pptx
- 《嵌入式系统原理与开发》课件_第5章.pptx
- 《数据挖掘与机器学习》 课件 项目二 农产品信息可视化分析——NumPy、pandas 与 Matplotlib 库.pptx
- 《数据挖掘与机器学习》 课件 项目七 新闻文本分析——聚类.pptx
- 《数据挖掘与机器学习》 课件 项目三 建筑工程混凝土抗压强度检测——线性回归.pptx
- 《数据挖掘与机器学习》 课件 项目四 电商平台运输行为预测——逻辑回归.pptx
- 《数据挖掘与机器学习》 课件 项目五 加工厂玻璃类别识别——决策树、随机森林.pptx
- 《数据挖掘与机器学习》 课件 项目一 搭建数据挖掘与机器学习编程环境.pptx
- 《数据挖掘与机器学习》 课件2.2.2 pandas数据结构.pptx
- 《数据挖掘与机器学习》 课件2.2.3 数据清洗.pptx
最近下载
- 低空经济装备项目商业计划书.docx VIP
- 自由贸易区背景下海南绿色港口发展研究.docx VIP
- .STANDARD HX270操作说明书.pdf VIP
- 形容词、副词、系动词高频考点-2025年中考英语专项复习(上海专用)(原题版).pdf VIP
- 自由贸易区背景下海南绿色港口发展研究.pdf VIP
- 英语二必考500词.docx VIP
- 长沙农商银行招聘试题及答案解析.pdf VIP
- 个人简历模板空白表格-表格个人简历.docx VIP
- 高三英语二轮复习阅读理解-传统文化专题 Traditional Culture(选自China Daily).docx VIP
- 铁路货运员业务学习资料.docx
文档评论(0)