网站大量收购独家精品文档,联系QQ:2885784924

微课6-2 机器学习算法与应用.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;;机器学习基本流程是:数据预处理—模型学习—模型评估—新样本预测。

机器学习与人脑思考过程的对比

如右图所示。

在系统基本结构中,环境向学习

部分提供信息,学习部分利用信

息修改知识库,执行部分根据知

识库完成任务,同时把获得的信

息反馈给学习部分。;学习是一项复杂的智能活动,学习过程与推理过程是紧密相连的。学习中所用的推理越多,系统的能力越强。要完全理解大多数机器学习算法,需要对一些关键的数学概念有一个基本的理解,

这些概念包括线性代数、微积分、概率

和统计知识。

图5-8机器学习所需的数学主题的重要性;机器学习专注于让人工智能具备学习的能力,使人工智能能够用数据来教自己。程序员通过机器学习算法来实现这一目标,这些算法是学习行为所基于的模型。算法与训练数据集一起使人工智能能够学习。

例如,学习如何识别猫与狗的照片。人工智能将算法设置的模型应用于包含猫和狗图像的数据集。随着时间的推移,人工智能将学习如何更准确,更轻松地识别狗与猫而无需人工输入。;回归分析是一种建模和分析数据的预测性的建模技术重要工具,它研究因变量(目标)和自变量(预测器)之间的关系,通常用于预测分析、时间序列模型以及发现变量之间的因果关系。我们使用曲线/线来拟合这些数据点,使得从曲线或线到数据点的距离差异最小。

例如,司机的鲁莽驾驶与道路交通

事故数量之间的关系,最好的研究

方法就是回归。

图5-9回归分析的曲线拟合;K-近邻(KNN)是最著名的基于实例的算法,是机器学习中基础和简单的算法之一,既能用于分类也能用于回归。KNN算法有一个特别的地方:没有一个显式的学习过程,其工作原理是利用训练数据对特征向量空间进行划分,并将划分的结果作为最终的算法模型。即基于实例的分析使用提供数据的特定实例来预测结果。KNN用于分类,比较数据点的距离,并将每个点分配给它最接近的组。;决策树算法将一组“弱”学习器集合在一起,形成一种强算法。决策树算法充分利用了树形模型,根节点到一个叶子节点是一条分类路径规则,每个叶???节点象征一个判断类别。将样本分成不同

的子集,再进行分割递推,直至每个子集得

到同类型的样本,从根节点开始测试,到子

树再到叶子节点,即可得出预测类别。此方

法的特点是结构简单、处理数据效率较高。;朴素贝叶斯主要用于文本分析算法,是由一系列算法组成的分类算法,有一个共同原则是,被分类的每个特征都与任何其他特征的值无关,这些“特征”都独立贡献概率。简而言之,朴素贝叶斯算法允许使用概率给出一组特征来预测一个类。与其他分类方法相比,朴素贝叶斯算法需要的训练较少。

在进行预测之前必须完成的唯一工作是找到特征的个体概率分布的参数,例如,大多数垃圾邮件过滤器使用贝叶斯算法,它们使用用户输入的类标记数据来比较新数据并对其进行适当分类。;聚类算法的重点是发现元素之间的共性并对它们进行相应的分组,常用的聚类算法是k均值聚类算法。在k均值中,分析人员选择簇数(以变量k表示),并根据物理距离将元素分组为适当的聚类。;这是统计学习领域中一个代表性算法,与传统思维方法不同,它的基本思想是:首先,利用一种变换将空间非线性高维化,然后,在新的复杂空间取最优线性分类表面。由此种方式获得的分类函数在形式上类似于神经网络算法。支持向量机应用于垃圾邮件识别,人脸识别等多种分类问题。;梯度增强算法是一种通用的增强基础算法性能的回归分析算法。它只需一个粗糙的基础算法,再反复调整此算法可以得到较好的组合回归模型。它将弱学习算法提高为强学习算法,可以应用到其他基础回归算法,如线性回归、神经网络等,来提高精度。

此外,Bagging(装袋)算法大体相似,主要是给出已知的弱学习算法和训练集,经过多轮计算,得到预测函数列,最后采用投票方式对示例进行判别。;关联规则是用规则去描述两个变量或多个变量之间的关系,是客观反映数据本身性质的方法。它分为两个阶段,先从资料集中找到高频项目组,再去研究它们的关联规则,其得到的分析结果即是对变量间规律的总结。;进行机器学习时需要用到极大似然估计等参数估计方法,在有潜在变量的情况下,通常选择EM(期望最大化)算法,不直接对函数对象进行极大估计,而是添加一些数据进行简化计算,再进行极大化模拟,它是对本身受限制或比较难直接处理的数据的极大似然估计算法。

EM算法有极为广泛的用途,是一种迭代优化策略。基本思想是:首先根据己经给出的观测数据估计出模型参数值;然后依据上??步的参数值估计缺失数据值,再将缺失数据加上之前观测到的数据重新再对参数值进行估计,反复迭代,直至最后收敛,迭代结束。;机械学习的主要目的是为了从使用者和输入数据等处获得知识或技能,重新组织已有的知识结构使之不断改善自身的性能。从而可以减少错误,帮助解决更多问题,提高解决问题的效率。例

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档