网站大量收购独家精品文档,联系QQ:2885784924

机器学习原理与应用电子教案 [5.11.1]集成学习[进阶].docxVIP

机器学习原理与应用电子教案 [5.11.1]集成学习[进阶].docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

备课日期:年月日

授课时间

课时(理论+实验)

周次

星期:节次:

授课课题

集成学习[进阶]

教学目标

1.理解集成学习的高级集成框架(Boosting、Bagging与Stacking)基本原理。

2.掌握Scikit-learn集成学习高级集成框架的实现方法。

教学重点

1.Boosting集成学习框架。

2.Bagging集成学习框架。

3.Stacking集成学习框架。

教学准备

PPT、点名册等。

教学方法

指导阅读、实例演示。

教学过程设计

备注

课题引入

【思考】集成学习基础集成策略的局限性。

【关键】集成学习旨在训练多个“个体学习器”或者基学习器,然后以特定策略将其进行组合以产生比单一学习器性能优越的强学习器。

从理论上而言,只要基分类器不比弱分类器差(瞎猜好一点的分类器),随着个体分类器数目的增大,集成后的强分类器的错误率会趋向于0,或者说集成后的强分类器可以任意好!

【时间】分钟。

教学步骤及主要内容

【主板】§15.集成学习框架[进阶]

一、Boosting框架

【主板】Boosting

Boosting算法是一种可将弱学习器提升为强学习器的算法。

1.基本原理

【强化与拓展】先根据初始训练样本训练初始基学习器,再根据初始基学习器的表现对训练样本分布进行调整,使得初始基学习器分类错误的训练样本在后续受到更多关注;然后基于调整后的训练样本训练下一个基学习器(此基学习器将尝试纠正先前基学习器的错误),如此重复进行直至基学习器数目达到事先指定值,最终将多个基学习器进行加权组合以构成性能更强的学习器。

2.经典算法:AdaBoost。

AdaBoost首先选取一个基分类器在给定数据集上做出预测并记录错误分类的样本,然后增加错误分类样本的权重以训练更新权重的训练集生成第二个基分类器,如此反复直至产生指定数量的基分类器(或拟合所有/大部分训练实例),进而对基分类器进行加权组合生成强分类器。

【强化与拓展】(1)使用加权后的训练数据代替随机选取的训练样本,可将模型训练的焦点集中在较难分的训练样本上。(2)将弱分类器联合起来,使用加权的投票机制代替平均投票机制,进而可使分类效果好的弱分类器具有较大的权重,而分类效果差的分类器具有较小的权重。(3)样本权值更新。增大分类错误样本的权重,降低分类正确样本的权重,以此突显分错的样本以构成新的样本分布。(4)弱分类器权值更新。增大准确率较高的弱分类器的权重,降低准确率较低的弱分类器。

〖PPT〗基本原理。

3.算法实现

(1)库导入

fromsklearn.ensembleimportAdaBoostClassifier

fromsklearn.ensembleimportAdaBoostRegressor

(2)主函数

sklearn.ensemble.AdaBoostClassifier(base_estimator=None,n_estimators=50)

sklearn.ensemble.AdaBoostRegressor(base_estimator=None,n_estimators=50)

【强化与拓展】(1)base_estimator:弱分类或回归学习器,一般是CART决策树或者神经网络MLP(默认为决策树)。(2)n_estimators:弱学习器的最大个数(默认为50);值太小容易欠拟合,太大容易过拟合。

〖PPT〗编程实现过程。

4.优缺点

(1)优点

【强化与拓展】(1)Adaboost算法不需要预先知道弱分类器的错误率上限,且最后得到的强分类器的分类精度依赖于所有弱分类器的分类精度;而且可以根据弱分类器的反馈,自适应地调整假定的错误率。(2)Adaboost可以通过不改变训练数据而只改变数据权值分布的方式使数据在不同学习器中产生不同作用。(3)Adaboost可以使用各种回归分类模型来构建弱学习器,非常灵活。弱分类器可并行实现。

(2)缺点

【强化与拓展】(1)在Adaboost训练过程中,Adaboost会使得难于分类样本的权值呈指数增长,训练将过于偏向此类样本,导致其易受噪声干扰。(2)Adaboost依赖于弱分类器,而弱分类器的训练时间往往很长。(3)由于异常样本在迭代中可能会获得较高的权重,Adaboost因而对异常样本敏感。

二、Bagging框架

【主板书】Bagging

1.基本原理

【强化与拓展】给定大小为n的样本集,随机从中取出1个样本放入采样集,然后再将其放回原样本集以使下次采样时该样本仍有可能被选中;如此经过n次随机采样操作则可得到包含大小为n的采样集(初始样本集中部分样本可能在采样集中多次出现或从未出现)。类似地可采样获得T个大小为n的采样集,然后对

文档评论(0)

释然 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档