数据挖掘与数据分析:基于R语言- 课件 第5--7章 决策树与回归树、随机森林、贝叶斯分类器.pptx

数据挖掘与数据分析:基于R语言- 课件 第5--7章 决策树与回归树、随机森林、贝叶斯分类器.pptx

  1. 1、本文档共97页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

DataMiningandDataAnalysiswithR;;;分类与回归树(Classificationandregressiontree,Cart)模型

分类与回归树模型作为应用最广泛的决策树学习方法,不仅可以适用于分类任务,在回归任务上也具有不错的性能。

常用的决策树算法有ID3、C4.5、C5.0和CART算法,本章主要介绍CART算法。;?;?;?;?;?;?;?;;;;;;;;;;;;;;决策树优点

模型构建和预测过程能够以图形方式显示,相比其他机器学习方法更易于理解和解释。

不需要大规模训练数据,无需数据标准化。

能够处理数值型和分类型数据。分类型数据可以采用独热编码转变为数值型数据,以构建决策树模型。

能够处理多输出问题。

决策树是一种白盒模型。如果在模型中观察到给定情况,易于通过布尔逻辑解释模型的内在思路。相比之下,黑盒模型中(例如,人工神经网络)的模型结果可能难以解释。

对于异常的数据点有更强的包容性。即使真实模型违反了假设,决策树也表现良好。;决策树缺点

决策树针对大规模问题可能创建过于复杂的树,出现过拟合现象,导致在训练数据集上表现良好,但在测试数据集上泛化能力差。解决方案包括修剪、设置叶子节点所需的最小样本数或设置树的最大深度等机制。

决策树具有不稳定性。微小数据变化可能导致生成完全不同的决策树。

决策树预测模型是非平滑非连续的。因此,决策树模型更适用于分类而非推断。

实用的决策树学习算法是基于启发式算法,如贪婪算法。受限于每个节点上的局部最优决策,算法不能保证返回全局最优决策树,可以通过训练多棵树缓解。

决策树难以表达某些概念。对于像XOR、奇偶性或多路复用器等问题的建模效果较差。

在某些类占主导地位的数据集上,决策树模型会创建有“偏见”的树。因此,建议平衡数据集后再建模。;决策树在具有大量特征的数据集上往往会发生过拟合现象。因此,获得正确的样本与特征数量的比例是十分重要的。

对于特征数量较多的数据集,应该考虑事先进行降维(PCA、ICA或特征选择),这有利于决策树有更好的机会找到具有区分力的特征。

通过限制决策树的最大深度可以来控制树的大小以防止模型过拟合,这是防止模型过拟合的一种常用方法。

在训练决策树模型前,应该平衡数据集,以防止决策树在训练过程中偏向于占优势的类。

如果样本是加权的,那么使用基于权重的预剪枝准则来优化决策树的结构会更容易,它可以确保叶子节点至少包含样本权重总和的一部分。

回归参数α越大的决策树模型可以适应越复杂的问题,但是并非所有的问题都需要复杂的决策树模型,需要具体问题进行具体分析。;作为标称属性,其存在多个可能值,针对所使用的决策树算法的不同,标称属性的分裂存在两种方式:多路划分和二元划分。

对于ID3、C4.5等算法,均采取多路划分的方法,标称属性有多少种可能的取值,就设计多少个分支;对于CART算法采用二分递归分割的方法,因此CART算法生成的决策树均为二叉树。

非监督离散化是指在离散化过程中不使用类信息的方法,其输入数据集仅含有待离散化属性的值。下表总结了非监督离散化的常用方法:;;;;;;;;DataMiningandDataAnalysiswithR;;;;;;;随机森林模型的优点

随机森林的训练可以高度并行化,这对于大数据时代的大样本训练具有很大的优势,可以大大提升训练速度。

由于随机森林可以随机选择决策树节点划分特征,这在样本特征维度很高的时候,仍然能高效地训练模型。

随机森林在训练后,可以给出各个特征对于输出的重要性,从而可以针对不同的问题确定出重要特征和非重要特征。

由于随机森林采用了随机采样,训练出的模型的方差较小,从而具有更强的泛化能力。;随机森林原理简单,容易实现且计算开销小,这对于大数据集而言,具有十分明显的优势。

随机森林模型对部分特征缺失不敏感,因此,允许原始数据集中存在一定的数据缺失,具有较强的鲁棒性。

随机森林模型的缺点

随机森林模型在某些噪音比较大的数据集上,容易陷入过拟合,使得模型在新的数据集上的预测或分类性能表现差。

随机森林模型对于取值划分比较多的特征对应的数据集不易产生令人满意的模型拟合效果。;?;?;;;;;;;;DataMiningandDataAnalysiswithR;合作QQ:243001978;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档