10种机器学习算法介绍.pptx

下载文档

10
0
约3.54千字
约 69页
2021-07-20 发布于河北
举报
版权申诉
保障服务

10种机器学习算法介绍.pptx

1、本文档共69页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习算法介绍;基本概念分类;监督式学习;非监督式学习;强化学习;十大机器学习算法;监督式学习与非监督式学习的差别;线性回归;线性回归;线性回归;逻辑回归;逻辑回归;决策树;细说决策树（1）——混乱度判断;细说决策树（2）——建构树;细说决策树（3）——剪枝prune;决策树代码 ;支持向量机;支持向量机;支持向量机优缺点;朴素贝叶斯;朴素贝叶斯;KNN（K最邻近算法）;KNN（K最邻近算法）;KNN（K最邻近算法）;K均值算法;K均值算法;工作流程 ;K-MEANS性能分析;K-MEANS性能分析;K-MEANS补充;AdaBoost;AdaBoost;Apriori;强化学习-马尔科夫决策过程;马尔科夫决策模型;数据挖掘;数据挖掘主要模型：分类、聚类、预测及关联;数据挖掘主要模型：分类、聚类、预测及关联;一、非线性拟合;二、货运量预测;二、货运量预测;三、财政收入影响因素与预测模型;三、财政收入影响因素与预测模型;三、财政收入影响因素与预测模型;三、财政收入影响因素与预测模型;四、时间序列预测法—交通流量预测;四、时间序列预测法—交通流量预测;一、数据探索;一、数据探索;二、数据预处理;二、数据预处理;（1）删除数据：主要针对缺失值数量较少、且删除数据对整体数据几乎没有影响；也可以根据数据缺失挖掘信息. 文献[1]利用5组医疗数据集测试了缺失数据对于病情阳性概率的影响，以及对分类结果精确度的影响，并通过knn、判别分析和朴素贝叶斯3种方法在数据缺失不同比例的情况下，对分类结果进行了分析比较；（2）数据插补：属性间的关联性在缺失值估计过程中非常重要，在数据挖掘方法中，关键是挖掘属性间的关系。数据插补的目的在于估计正确的替代值。文献[2]提出了基于不完备数据聚类的缺失数据填补方法，针对分类变量不完备数据集定义约束容差集合差异度，从集合的角度判断不完备数据对象的总体相异程度，并以不完备数据聚类的结果对基础进行缺失数据的填补。文献[3]提出一种基于进化算法的自适应聚类方法,该方法的基本思想是将聚类问题转化成一个全局优化问题,利用聚类方法填充缺失值。文献[4]针对缺失数据问题，提出???多元回归方法，弥补一元回归方法的不足。 [1] Juhola M, Laurikkala J. Missing values: how many can they be to preserve classification reliability [J/OL]. Artificial Intelligence Review,2011. (2011-08-01) [2012-12-28]. [2]武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8): 1726-1738. [3] Silva J A,Hruschka E R. An evolutionary algorithm for missing values substitution in classification tasks[C] ∥ Proceedings of the HAIS′09. Salamanca:Springer,2009: 195-202. [4] Zhang Shichao, Jin Zhi,Zhu Xiaofeng,et al. Missing data analysis: a kernel-based multi-imputation ap-proach[C]∥Proceedings of Transactions on Comput-ational Science III. Berlin,Heidelberg: Springer,2009:122-142. ;(2) 相似重复对象检测文献[5]：邻近排序算法(SNM)是重复记录检测的常用方法，该方法基于排序比较的思想文献[6]：多趟排序；文献[7]：优先队列排序文献[8]：提出了基于N-gram的重复记录检测方法,并给出了改进的优先权队列算法以准确地聚类相似重复记录。文献[9]：用依赖图的概念,计算数据表中的关键属性,根据关键属性值将记录集划分为小记录集,在每个小记录集中进行相似重复记录检测。文献[10]：针对非结构化数据的重复检测，介绍了复杂数据实体识别的概念和应用,分别就XML数据、图数据和复杂网络上实体识别技术进行了讨论。 [5]张建中,方正,熊拥军,等.对基于SNM数据清洗算法的优化[J].中南大学学报:自然科学版,2010,41(6):2240-2245. [6]Monge A E