《大数据挖掘与统计机器学习(第3版)》 课件 第4章决策树与组合方法.pptx

《大数据挖掘与统计机器学习(第3版)》 课件 第4章决策树与组合方法.pptx

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第4章决策树与组合方法4.1.决策树4.1.1决策树的基本知识常用算法ID3C4.5CART核心归纳算法1

?

二分类示意

?

?

4.1.3需要说明的一些问题1.二叉树还是多叉树2.自变量的进一步处理3.其他的决策树算法4.决策树的一些问题例4.1(乳腺癌数据案例)例4.2(cpu数据案例)

?7

?

?

讨论Bagging算法在基预测器不稳定的情况下很有用,而当基预测器稳定时,Bagging算法并不有效。Bagging算法可以让好的分类器(错分率e0.5)效果更好,但也会让坏的分类器(错分率e0.5)效果更坏。对于回归问题,M的值可以取得小一些,对于分类问题,尤其是当y的类别比较多的时候,M的取值应该大一些。每次进行Bootstrap抽样时,我们选择的样本量都等于原始训练集的样本量n。当提高Bootstrap抽样样本量的个数至2n后,大约有14%的样本点没有被抽中,但是Bagging算法的精度并没有提高。如果从偏差方差分解的角度理解Bagging算法,它可以提高不稳定基预测器的预测精度,实质上是减小了预测的方差(variance),但并没有降低偏差(bias)。所以通常Bagging不剪枝的决策树。例4.3(乳腺癌数据案例续).例4.4(cpu数据案例续).

?11

?12

?13

?14

?

?

?

?

?

?

?

4.3.5讨论Boosting方法的确存在过拟合的现象,虽然很慢。BuhlmannandHothorn(2007)基于一些模型拟合的最优化理论,提出了确定M的标准。我们也可以使用交叉验证的方法确定M。M的选取只是提高预测精度的一个考虑,我们还可以像岭回归和神经网络一样使用收缩技术。Boosting方法是对基预测器的相加或组合,基预测器的选取可以是任意的,实际数据表明使用决策树作为Boosting的分类器往往可以实现预测精度的大幅提高。本节所介绍的Boosting方法主要是针对传统的分类和回归问题,将这种思想推广开来,可以对指数分布族模型(Possion回归等)以及生存分析模型(Cox回归等)进行改进

4.3.6Boosting方法的进一步研究1.树桩、单棵最优决策树、AdaBoost方法比较

2.自适应重抽样:ARC-X43.样本使用情况4.抽样概率的波动

5.误判次数与被抽中次数6.易判错的点是否得到更大的权重

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档