决策树方法.ppt

下载文档 降价啦

11
0
约3.33千字
约 23页
2017-06-26 发布于湖北
举报
版权申诉
保障服务

决策树方法.ppt

1、本文档共23页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

决策树方法重点讲义

决策树模型 Decision Trees 沈炎峰 2015年8月 Decision Tree Modeling 决策树是一种简单且应用广泛的预测方法决策树简述决策树（decision trees），是一个类似于流程图的树结构，其中每个内部节点表示在一个属性（自变量）上的分裂，每个分支代表一个分裂输出，而每个树叶节点代表判断结果。树的最顶层节点是根节点。决策树是一种非线性的判别分析的方法，它通过自变量竞争分裂，把原始数据集分裂成一系列更小的子群。回归树（Regression Tree）因变量-continuous ，叶子为因变量的预测值。 Boston Housing Data Leaves = Boolean Rules（布尔规则） Leaf 1 2 3 4 5 6 7 8 RM 6.5 6.5 6.5 [6.5, 6.9) 6.9 [6.9, 7.4) ?7.4 ?6.9 NOX .51 [.51, .63) [.63, .67) .67 ?.67 .66 .66 ?.66 Predicted MEDV 22 19 27 27 14 33 46 16 If RM ? {values} NOX ? {values}, then MEDV=value 分类树 A decision tree is so called because the predictive model can be represented in a tree-like structure. the target is categorical, the model is a called a classification tree. 图3.1 常见的决策树形式决策树主要有二元分支（binary split）树和多分支（multiway split）树。一般时候采用二元分裂，因为二元分裂在穷举有哪些信誉好的足球投注网站中更加灵活。决策树形式决策树分类分类回归树（CART:Classification and Regression Tree）其特点是在计算过程中充分利用二分支树的结构（Bianry Tree-structured），即根节点包含所有样本，在一定的分裂规则下根节点被分裂为两个子节点，这个过程又在子节点上重复进行，直至不可再分，成为叶节点为止。它首先对数据进行处理，利用归纳法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树技术发现数据模式和规则的核心是采用递归分割的贪婪算法。决策树的基本原理递归分割的分裂标准决策树的建立从根节点开始进行分割（对于连续变量将其分段），穷尽有哪些信誉好的足球投注网站各种可能的分割方式，通过分裂标准（通常用结果变量在子节点中变异的减少的多少来作为标准）来决定哪个解释变量做为候选分割变量以及对应的分割点。根节点分割后，子节点会象根节点一样重复分割过程，分割在该子节点下的观测一直到符合某种条件停止分割。回归树的生成 ◇ 数据：N个观测，p个自变量，1个因变量(连续型) ◇ 目标：自动地选择分裂变量及其分裂点假设有一个分裂把自变量空间分成M个区域: 在每个区域，我们用一个常数来拟合因变量：优化目标：误差平方和最小上最优的拟合解为从根节点开始，考虑一个分裂变量j和分裂点s，得到2个区域：最优的变量j和分裂点s，要满足对于给定的j和s，最里层的优化问题的解为而对于给定的j,分裂点s很快能找到. 这样，遍历所有的自变量，就能找到最佳的一对j和s. 递归分割-greedy algorithm 剪枝最大的决策树能对训练集的准确率达到100%，最大的分类树的结果会导致过拟合（对信号和噪声都适应）。因此建立的树模型不能很好的推广到总体中的其他样本数据。同样，太小的决策树仅含有很少的分支，会导致欠拟合。一个好的树模型有低的偏倚和低的方差，模型的复杂性往往在偏倚和方差之间做一个折中，因此要对树进行剪枝。这里介绍cost-complexity pruning。最大树决策树能长到每个叶子都是纯的。最大的分类可以达到100%的准确，最大的回归树残差为0。恰当的树先生成一个大的树考虑一个子树子树就是由大树进行删减内部节点而得到. 用|T|表示树T 的叶节点（最终节点）的个数. 定义cost complexity criterion: 对于每个，寻找子树使得达到最小. 而则起到了平衡树的大小和数据拟合好坏的作用. 较大会得到较小的树，较小则会得到较大的树. 对于每个，可以证明存在唯一的最小的子树使得达