1. 1、本文档共35页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Boosting.ppt

Boosting原理及在分类上的应用 电子工程系 刘辉 2002 年 12 月 9 日 Outline 背景 Boosting原理 Boosting算法 Boosting应用 总结 背景 游戏理论(Game theory) R P S 锤子 布 剪子 锤子 ? 1 0 布 0 ? 1 剪子 1 0 ? 游戏者1(row player): RSPPSRS… (损失最小化) 游戏者2(column player): SRRPSRP… (损失最大化) 背景 在线学习(On-line learning) 马以往的表现 马当前的状态 马的主人 场地安排 …….. 以上种种因素,如何综合考虑? 背景 Boosting思想源于 三个臭皮匠,胜过诸葛亮 Finding many rough rules of thumb can be a lot easier and more effective than finding a single, highly prediction rule. 原理引入 天气预报 预测明天是晴是雨? 传统观念:依赖于专家系统(A perfect Expert) 原理引入 A perfect expert 原理引入 Boosting:based on “Nobody is perfect”,combine common reporter to obtain perfect expert 更加符合自然界的现实 原理引入 Boosting—concepts(1) 机器学习(Machine Learning):将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题 。 人脸识别 文本分类 网络安全 生物信息工程 学习机(learner):机器学习得到的规则或者模型。 样本:所研究问题的实例,一般在训练集中包括正样本和负样本。 一张人脸图像,一篇文章,一个病毒代码,一个生物的遗传编码 训练:采用某种方法,用已知属性的样本作为输入,得到相应规则的过程。 训练集:由已知属性的样本组成的集合,作为训练过程的输入数据。 测试集:由已知属性的样本组成的集合,作为测试过程的输入数据。 假设:学习机对样本做出的判断,即是否符合需要判定的事实。 某张脸是否是张三的,某篇文章是否属于新闻类别 Boosting—concepts(2) 特征选取:从实际数据中抽取反映其本质规律的属性。 人脸图像向量做PCA变换得到特征向量的投影系数 对文本进行语法分析后表示成关于词的特征向量 机器学习系统结构表示 Boosting—concepts(3) 弱学习机(weak learner): 对一定分布的训练样本给出假设(仅仅强于随机猜测) 根据有云猜测可能会下雨 强学习机(strong learner): 根据得到的弱学习机和相应的权重给出假设(最大程度上符合实际情况:almost perfect expert) 根据CNN,ABC,CBS以往的预测表现及实际天气情况作出综合准确的天气预测 弱学习机 强学习机 Boosting流程(loop1) 流程描述 Step1: 原始训练集输入,带有原始分布 Step2: 给出训练集中各样本的权重 Step3: 将改变分布后的训练集输入已知的弱学习机,弱学习机对每个样本给出假设 Step4: 对此次的弱学习机给出权重 Step5: 转到Step2, 直到循环到达一定次数或者某度量标准符合要求 Step6: 将弱学习机按其相应的权重加权组合形成强学习机 核心思想 样本的权重 没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有N个样本,每个样本的分布概率为1/N 每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大, 使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。 弱学习机的权重 准确率越高的弱学习机权重越高 循环控制:损失函数达到最小 在强学习机的组合中增加一个加权的弱学习机,使准确率提高,损失函数值减小。 简单问题演示(Boosting训练过程) 算法—问题描述 训练集 { (x1,y1), (x2,y2),…, (xN,yN) } xi ?Rm, yi? {-1,+1} Dt 为第t次循环时的训练样本分布(每

文档评论(0)

克拉钻 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档