第四章:决策树.pdf

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章:决策树

第四章:决策树 大纲  基本流程  划分选择  剪枝处理  连续与缺失值  多变量决策树 基本流程 决策树基于树结构来进行预测 色泽=? 青绿 … 根蒂=? …... 蜷缩 … 敲声=? …... 浊响 … 好瓜 …... 基本流程  决策过程中提出的每个判定问题都是对某个属性的“测试”  决策过程的最终结论对应了我们所希望的判定结果  每个测试的结果或是导出最终结论,或者导出进一步的判定问题, 其考虑范围是在上次决策结果的限定范围之内  从根结点到每个叶结点的路径对应了一个判定测试序列 决策树学习的目的是为了产生一棵泛化能力强, 即处理未见示例能力强的决策树 基本流程 (1)当前结点包含的 样本全部属于同一类 别 (2 )当前属性集为空, 或所有样本在所有属 性上取值相同 (3 )当前结点包含的 样本集合为空 大纲  基本流程  划分选择  剪枝处理  连续与缺失值  多变量决策树 划分选择  决策树学习的关键在于如何选择最优划分属性。一般而言,随着 划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可 能属于同一类别,即结点的“纯度”(purity)越来越高  经典的属性划分方法:  信息增益  增益率  基尼指数 划分选择-信息增益  “信息熵”是度量样本集合纯度最常用的一种指标,假定当前样 本集合 中第 类样本所占的比例为 ,则 的信 息熵定义为 的值越小,则 的纯度越高  计算信息熵时约定:若 ,则  的最小值为 ,最大值为 划分选择-信息增益  离散属性 有 个可能的取值 ,用 来进行划分,则 会产生 个分支结点,其中第 个分支结点包含了 中所有在属性 上取值为 的样本,记为 。则可计算出用属性 对样本集 进行 划分所获得的 “信息增益”: 为分支结点权重,样本数越 多的分支结点的影响越大  一般而言,信息增益越大,则意味着使用属性 来进行划分所获 得的“纯度提升”越大 

文档评论(0)

yanchuh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档