Python 数据分析与科学计算 课件 第11章 机器学习.pptx

Python 数据分析与科学计算 课件 第11章 机器学习.pptx

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Python数据分析与科学计算

第11章机器学习11.1Scikit-Learn库11.2分类算法11.3回归算法11.4聚类算法11.5本章小结

11.1Scikit-Learn库1.Scikit-Learn库概述Scikit-Learn(简称sklearn)包含了常用的机器学习算法、预处理技术、模型选择和评估工具等,能实现数据预处理、分类、回归、模型选择等常用的机器学习算法,可以方便地进行数据挖掘和数据分析。Scikit-learn主要应用于分类、回归、聚类、数据降维、模型选择和数据预处理等6个方面。

11.1Scikit-Learn库(1)分类分类是对给定对象指定所属类别,属于监督学习的范畴,常用于图像识别、垃圾邮件检测等场景中。常用的分类算法:支持向量机(SupportVerctorMachine,SVM)K-最邻近算法(K-NearestNeighbor,KNN)逻辑回归(LogisticRegression,LR)随机森林(RF,RandomForest,RF)决策树(DecisionTree,DT)

11.1Scikit-Learn库(2)回归回归分析是一项预测性的建模技术,通过建立模型研究因变量和自变量之间的关系,预测数值型的目标值。常用于预测股票价格、预测药物反应等场景。常用的回归方法:支持向量回归(SupportVectorRegression,SVR)岭回归(RidgeRegression)Lasso回归(LassoRegression)弹性网络(ElasticNet)最小角回归(Least-angleRegression,LARS)贝叶斯回归(BayesianRegrssion)

11.1Scikit-Learn库(3)聚类聚类是自动识别具有相似属性的对象,并将其分组为多个集合,属于无监督学习的范畴。常用于实验结果分组、顾客细分等场景。常用的聚类方法:K-均值聚类(K-means)谱聚类(SpectralClustring)均值偏移(MeanShift)分层聚类(HierarchicalClustering)基于密度的聚类(Density-BasedSpatialClusteringofApplicationswithNoise,DBSCAN)

11.1Scikit-Learn库(4)数据降维数据降维是使用主成分分析(Principalcomponentanalysis,PCA)、非负矩阵分解(NonnegativeMatrixFactorization,NMF)或特征选择等降维技术来减少要考虑的随机变量的个数。常用于可视化处理、效率提升等场景。主要的降维技术:主成分分析(PCA,PrincipalComponentAnalysis)非负矩阵分解(NMF,Non-negativeMatrixFactorizatio)

11.1Scikit-Learn库(5)模型选择模型选择是对于给定参数和模型的比较、验证和选择,其主要目的是通过参数调整来提升精度。目前Scikit-learn实现的模块包括:格点有哪些信誉好的足球投注网站,交叉验证等。(6)数据预处理数据预处理是提高数据质量的有效方法,主要包括数据清理(清除数据噪声并纠正不一致)、数据集成(将多个数据源合并成一致数据存储)、数据规约(通过聚集、删除冗余特征或聚类等方法降低数据规模)和数据变换(数据规范化)等方法。

11.1Scikit-Learn库2.Scikit-Learn库中的数据集在sklearn库中提供了经典的数据集,使用数据集,需要导入“datasets”模块,常用的导入方式为:fromsklearnimportdatasetssklearn数据集主要有以下5种:(1)自带的小数据集(PackagedDataset)(2)可在线下载的数据集(DownloadedDataset)(3)计算机生成的数据集(GeneratedDataset)(4)svmlight/libsvm格式的数据集(5)从在线下载获取的数据集

11.1Scikit-Learn库sklearn库内置常用数据集数据集名称加载方式鸢尾花数据集load_iris()葡萄酒数据集load_wine()波士顿房屋数据集load_boston()手写数字数据集load_digits()糖尿病数据集Load_diabetes()乳腺癌数据集Load_breast_cancer()体能训练数据集Load_linnerud()人脸数据集fetch_lfw_peopl

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档