网站大量收购闲置独家精品文档,联系QQ:2885784924

决策树与模型评估教材.pptx

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章 分类:根本概念、决策树与模型评估;分类任务:确定对象属于哪个预定义的目标类;分类任务的输入数据是记录的集合。每条记录也称实例或者样例,用元组〔x, y〕表示,其中x是属性的集合,而y是一个特殊的属性,指出样例的类标号〔也成为分类属性或目标属性〕。;分类〔classification〕;输入属性集〔x〕;分类技术是一种根据输入数据集建立分类模型的系统方法。;训练集:由类标号的记录构成 检验集:由类标号未知的记录构成;;同样,分类模型的性能也可以用错误率〔error rate〕来表示,其定义如下:;1、什么是决策树? 类似于流程图的树结构 每个内部节点表示在一个属性上的测试 每个分枝代表一个测试输出 每个叶节点代表类或类分布;根结点〔root node〕:它没有入边,但是有零条或多条出边。 内部结点〔internal node〕:恰好有一条入边和两条或多条出边。 叶节点〔leaf node〕或终结点〔terminal node〕:恰好有一条入边, 但没有出边。; 一旦构造了决策树,对检验记录进行分类就很容易。从树的根结点开始,将测试条件用于检验记录,根据测试结果选择适当的分支。沿着该分支或者到达另一个内部结点,使用新的测试条件,或者到达一个叶结点。到达叶结点之后,叶结点的类标号就被赋值给该检验记录。;如何建立决策树;在Hunt算法中,通过将训练记录相继划分成较纯的子集,以递归方式建立决策树。设 是与结点t相关联的训练记录集,而 是类标号,Hunt算法的递归定义如下。;Hunt算法;拖欠贷款者=否;如果属性值的每种组合都在训练数据中出现,并且每种组合都具有唯一的类标号,那么Hunt算法是有效的。但是对于大多数实际情况,这些假设太苛刻了,因此,需要附加的条件来处理以下的情况:;决策树归纳的设计问题;表示属性测试条件的方法;2、标称属性 由于标称属性有多个属性值,它的测试条件可以用两种方法表示。;3、序数属性 序数属性也可以产生二元或多路划分,只要不违背序数属性值的有序性,就可以对属性值进行分组。;4、连续属性 对于连续属性来说,测试条件可以是具有二元输出的比较测试 或 也可以是具??形如 输出的范围查询。;有很多度量可以用来确定划分记录的最正确方法,这些度量用划分前和划分后的记录的类分布定义。;选择最正确划分的度量通常是根据划分后子女结点不纯性的度量。不纯的程度越低,类分布就越倾斜。例如〔0,1〕的结点具有零不纯性,而均衡分布〔0.5, 0.5〕的结点具有最高的不纯性。不纯性度量的例子包括:;结点N1;二元分类问题不纯性度量之间的比较;为确定测试条件的效果,我们需要比较父结点〔划分前〕的不纯性程度和子女结点〔划分后〕的不纯性程度,它们的差越大,测试条件的效果就越好。增益 是一种可以用来确定划分效果的标准:;B;2、标称属性的划分;3、连续属性的划分;降低计算复杂性的方法: 1.将记录进行排序 2.从两个相邻的排过序的属性值之间选择中间值作为划分点 3.计算每个候选点的Gini值 4.时间复杂度为O〔NlogN〕;4、增益率;如何解决?;决策树归纳特点的总结;9、子树可能在决策树中重复屡次,这使得决策树过于复杂,并且可能更难解释。;使用仅涉及单个属性的测试条件不能有效划分的数据集的例子;构造归纳〔constructive induction〕;一个好的分类模型必须具有低训练误差和低泛化误差。;二维数据过分拟合的例子; 当决策树很小时,训练误差和检验误差都很大,这种情况称作模型拟合缺乏〔model underfitting〕。出现拟合缺乏的原因是模型尚未学习到数据的真实结构,因此,模型在训练集和检验集上的性能都很差。 一旦树的规模变得太大,即使训练误差还在降低,但是检验误差开始增大,这种现象称为模型过分拟合〔model overfitting〕。; 为理解过分拟合现象,举个例子:可以扩展树的叶结点,直到它完全拟合训练数据。虽然这样一颗复杂的树的训练误差为0,但是检验误差可能很大,因为该树可能包含这样的结点,它们偶然地拟合训练数据中某些噪声。这些结点降低了决策树的性能,因为他们不能很好的泛化到检验样本。;名称;名称;完全拟合训练数据的决策树显示在以下图〔a〕中,虽然该树的训练误差为0,但是它在检验数据集上的误差高达30%。;缺乏代表性样本导致的过分拟合;过分拟合与多重比较过程;1、过分拟合的主要原因一直是个争辩的话题,但大家还是普遍同意模型的复杂度对模型的过分拟合有影响。 2、如何确定正确的模型复杂度?理想的复杂度是能产生

文档评论(0)

189****5087 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7102116031000022
认证主体仪征市思诚信息技术服务部
IP属地江苏
统一社会信用代码/组织机构代码
92321081MA278RWX8D

1亿VIP精品文档

相关文档