机器学习和迁移学习资料.ppt

下载文档 降价啦

2
0
约2.36千字
约 19页
2017-05-11 发布于湖北
举报
版权申诉
保障服务

机器学习和迁移学习资料.ppt

1、本文档共19页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习和迁移学习资料

Machine Learning 制作者：黄皓璇陈韬 1.机器学习 1.机器学习 2.常见算法 2.常见算法 2.常见算法 2.常见算法 2.常见算法 3.集成方法 3.集成方法 4.迁移学习在传统分类学习中，为了保证训练得到的分类模型具有准确性和高可靠性，都有两个基本的假设：（1）用于学习的训练样本与新的测试样本满足独立同分布的条件；（2）必须有足够可利用的训练样本才能学习得到一个好的分类模型。但是，在实际应用中我们发现，这两个条件往往无法满足。于是乎，迁移学习应运而生。迁移学习，是一种运用已存有的知识对不同但相关领域的问题进行求解的新的机器学习方法。 4.迁移学习针对源领域和目标领域样本是否标注以及任务是否相同，可以把迁移学习划分为： 1、归纳迁移学习 2、直推式迁移学习 3、无监督迁移学习而按照迁移学习方法采用的技术划分，又可以把迁移学习方法大体上分为： 1、基于特征选择的迁移学习算法研究 2、基于特征映射的迁移学习算法研究 3、基于权重的迁移学习算法研究 4.迁移学习 TrAdaBoost算法的目标就是从辅助的源数据中找出那些适合测试数据的实例，并把这些适合的实例迁移到目标领域中少量有标签样本的学习中去。该算法的关键思想是利用Boosting技术过滤掉源领域数据中那些与目标领域中少量有标签样本最不像的样本数据。在TrAdaBoost算法中，AdaBoost被用于在目标领域里少量有标签的样本中，以保证分类模型在目标领域数据上的准确性；而Hedge( )被用在源领域数据上，用于自动调节源领域数据的重要度。 4.迁移学习 4.迁移学习 4.迁移学习 4.迁移学习 * 2015年5月7日目录 1 2 3 4 机器学习常见算法集成方法迁移学习 1.1 概念简介机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。由于机器学习是人工智能的一个核心领域，所以也有如下定义：“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。 1.2 分类（1）监督学习：从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。（2）无监督学习：与监督学习相比，训练集没有人为标注的结果。常见的无监督学习算法为聚类。（3）半监督学习：介于监督学习与无监督学习之间，如迁移学习。（4）增强学习：通过观察来学习做成如何的动作。每个动作都会对环境有所影响，学习对象根据观察到的周围环境的反馈来做出判断。 2.1 简介分类算法：最近邻居法、朴素贝叶斯、决策树、人工神经网络、支持向量机等。聚类算法：K均值、DBSCAN算法、EM算法、模糊C均值、SOM（自组织映射）等。 2.2 决策树（C4.5） 2.2 决策树（C4.5）相亲决策树： 2.3 支持向量机（SVM） 2.3 支持向量机（SVM） 3.1 概念简介集成方法（ensemble）是机器学习领域中用来提升分类算法准确率的技术，主要包括Bagging和Boosting即装袋和提升。前面介绍的决策树、朴素贝叶斯等均属于弱分类器，通过集成方法可以将不同的弱分类器组合起来，构造强分类器。比较有代表性的集成方法有：AdaBoost、随机森林（RandomForest）等。 3.2 AdaBoost算法（1）在没有先验知识的情况下，初始的分布为等概分布，也就是训练集如果有n个样本，每个样本的分布概率为1/n，并设置迭代次数m。（2）每次训练后得到一个基分类器，并根据准确率计算其权值。接着提高错误样本的分布概率，即让分类错误的样本在训练集中的权重增大，分类正确的样本权重减小，使得下一次训练的基分类器能集中力量对这些错误样本进行判断。（3）最后通过级联m个基分类器形成一个强分类器。 4.1 概念简介 4.2 分类 4.3 TrAdaBoost算法 4.3 TrAdaBoost算法机制训练数据源训练数据辅助训练数据基本分类器 AdaBoost Hedge( ) 4.4 TrAdaBoost算法示意图 4.5 TrAdaBoost算法描述输入：两个训练数据集和（训练数据集