- 1、本文档共68页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
10种机器学习算法介绍培训课件
机器学习算法介绍基本概念分类监督式学习多轮学习以达到目的:实现回归或分类非监督式学习特定方法实现聚类。(由于目的性不明确,所以一般没有多轮)强化学习不断学习,永无止境分类算法适用因变量为离散变量回归算法适用因变量为连续变量聚类和分类的差别聚类:无限种类别可能分类:有限种类别可能监督式学习工作机制 这个算法由一个目标变量或结果变量(或因变量)组成。 此变量由已知的一系列预示变量(自变量)预测而来。 利用这一系列变量,我们生成一个将输入值映射到期望输出值的函数。 这个训练过程会一直持续,直到模型在训练数据上获得期望的精确度。例子 线性回归,决策树,SVM,K – 近邻算法,逻辑回归 等非监督式学习工作机制 没有任何目标变量或结果变量要预测或估计。 用在不同的组内聚类分析。 例子 关联算法, K – 均值算法强化学习工作机制 训练机器进行决策。 机器被放在一个能让它通过反复试错来训练自己的环境中。 机器从过去的经验中进行学习,并且尝试利用了解最透彻的知识作出精确的判断。 例子 马尔可夫决策过程十大机器学习算法1、线性回归2、逻辑回归3、决策树4、SVM5、朴素贝叶斯6、k-Means算法7、kNN算法8、Apriori算法9、最大期望算法(EM)10、PageRank监督式学习与非监督式学习的差别监督式学习方法,要求:事先明确知道各个类别的信息所有待分类项都有一个类别与之对应如果不能满足上述两个条件(例如有海量数据),则需适用聚类算法,即非监督式学习。监督式学习非监督式学习线性回归逻辑回归决策树朴素贝叶斯SVM KNNK-meansAprioriEMPageRank线性回归适用场景根据连续变量估计实际数值(房价、呼叫次数、总销售额等)。原理可通过拟合最佳直线来建立自变量和因变量的关系。拟合结果是条直线 Y= a *X + b:其中Y是因变量,a是斜率,x是自变量,b是截距最佳直线叫做回归线。系数 a 和 b 通过最小二乘法获得。Python代码from sklearn import linear_modelx_train=input_variables_values_training_datasetsy_train=target_variables_values_training_datasetsx_test=input_variables_values_test_datasetslinear = linear_model.LinearRegression()linear.fit(x_train, y_train)linear.score(x_train, y_train)线性回归针对线性回归容易出现欠拟合的问题,采取局部加权线性回归。在该算法中,赋予预测点附近每一个点以一定的权值,在这上面基于波长函数来进行普通的线性回归.可以实现对临近点的精确拟合同时忽略那些距离较远的点的贡献,即近点的权值大,远点的权值小,k为波长参数,控制了权值随距离下降的速度,越大下降的越快。 线性回归针对数据的特征比样本点多的问题:一、岭回归二、前向逐步回归逻辑回归?#Import Libraryfrom sklearn.linear_model import LogisticRegression#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset# Create logistic regression objectmodel = LogisticRegression()?# Train the model using the training sets and check scoremodel.fit(X, y)model.score(X, y)#Predict Outputpredicted= model.predict(x_test)逻辑回归基于最优化方法的最佳回归系数确定: 梯度下降法随机梯度下降法(根据梯度更新权重) 牛顿法或拟牛顿法(最大熵模型)决策树使用场景这个监督式学习算法通常被用于分类问题。它同时适用于分类变量和连续因变量。原理在这个算法中,我们将总体分成两个或更多的同类群。这是根据最重要的属性或者自变量来分成尽可能不同的组别。回归树——预测值为叶节点目标变量的加权均值分类树——某叶节点预测的分类值应是造成错判损失最小的分类值。细说决策树(1)——混乱度判断熵熵:E = sum(-p(I)*log(p(I))),I=1:N(N类结果,如客户是否流失)所有样本都属于一个类别I(最整齐),那么熵为0,如果样本完全随机,那么熵为1 信息增益信息增益:原样本的熵-sum(区分后的各部
文档评论(0)