网站大量收购独家精品文档,联系QQ:2885784924

决策树与模型评估教材 .pptx

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章 分类:基本概念、决策树与模型评估;分类任务:确定对象属于哪个预定义的目标类;分类任务的输入数据是记录的集合。每条记录也称实例或者样例,用元组(x, y)表示,其中x是属性的集合,而y是一个特殊的属性,指出样例的类标号(也成为分类属性或目标属性)。;分类(classification);输入属性集(x);分类技术是一种根据输入数据集建立分类模型的系统方法。;训练集:由类标号已知的记录构成 检验集:由类标号未知的记录构成;9、我们的市场行为主要的导向因素,第一个是市场需求的导向,第二个是技术进步的导向,第三大导向是竞争对手的行为导向。七月-21七月-21Sunday, July 18, 2021 10、市场销售中最重要的字就是“问”。09:26:0809:26:0809:267/18/2021 9:26:08 AM 11、现今,每个人都在谈论着创意,坦白讲,我害怕我们会假创意之名犯下一切过失。七月-2109:26:0809:26Jul-2118-Jul-21 12、在购买时,你可以用任何语言;但在销售时,你必须使用购买者的语言。09:26:0809:26:0809:26Sunday, July 18, 2021 13、He who seize the right moment, is the right man.谁把握机遇,谁就心想事成。七月-21七月-2109:26:0809:26:08July 18, 2021 14、市场营销观念:目标市场,顾客需求,协调市场营销,通过满足消费者需求来创造利润。18 七月 20219:26:08 上午09:26:08七月-21 15、我就像一个厨师,喜欢品尝食物。如果不好吃,我就不要它。七月 219:26 上午七月-2109:26July 18, 2021 16、我总是站在顾客的角度看待即将推出的产品或服务,因为我就是顾客。2021/7/18 9:26:0809:26:0818 July 2021 17、利人为利已的根基,市场营销上老是为自己着想,而不顾及到他人,他人也不会顾及你。9:26:08 上午9:26 上午09:26:08七月-21 ;;同样,分类模型的性能也可以用错误率(error rate)来表示,其定义如下:;1、什么是决策树? 类似于流程图的树结构 每个内部节点表示在一个属性上的测试 每个分枝代表一个测试输出 每个叶节点代表类或类分布;根结点(root node):它没有入边,但是有零条或多条出边。 内部结点(internal node):恰好有一条入边和两条或多条出边。 叶节点(leaf node)或终结点(terminal node):恰好有一条入边, 但没有出边。; 一旦??造了决策树,对检验记录进行分类就很容易。从树的根结点开始,将测试条件用于检验记录,根据测试结果选择适当的分支。沿着该分支或者到达另一个内部结点,使用新的测试条件,或者到达一个叶结点。到达叶结点之后,叶结点的类标号就被赋值给该检验记录。;如何建立决策树;在Hunt算法中,通过将训练记录相继划分成较纯的子集,以递归方式建立决策树。设 是与结点t相关联的训练记录集,而 是类标号,Hunt算法的递归定义如下。;Hunt算法;拖欠贷款者=否;如果属性值的每种组合都在训练数据中出现,并且每种组合都具有唯一的类标号,则Hunt算法是有效的。但是对于大多数实际情况,这些假设太苛刻了,因此,需要附加的条件来处理以下的情况:;决策树归纳的设计问题;表示属性测试条件的方法;2、标称属性 由于标称属性有多个属性值,它的测试条件可以用两种方法表示。;3、序数属性 序数属性也可以产生二元或多路划分,只要不违背序数属性值的有序性,就可以对属性值进行分组。;4、连续属性 对于连续属性来说,测试条件可以是具有二元输出的比较测试 或 也可以是具有形如 输出的范围查询。;有很多度量可以用来确定划分记录的最佳方法,这些度量用划分前和划分后的记录的类分布定义。;选择最佳划分的度量通常是根据划分后子女结点不纯性的度量。不纯的程度越低,类分布就越倾斜。例如(0,1)的结点具有零不纯性,而均衡分布(0.5, 0.5)的结点具有最高的不纯性。不纯性度量的例子包括:;结点N1;二元分类问题不纯性度量之间的比较;为确定测试条件的效果,我们需要比较父结点(划分前)的不纯性程度和子女结点(划分后)的不纯性程度,它们的差越大,测试条件的效果就越好。增益 是一种可以用来确定划分效果的标准:;B;2、标称属性的划分;3、连续属性的划分;降低计算复杂性的方法: 1.将记录进行排序 2.

文档评论(0)

魏魏 + 关注
官方认证
内容提供者

教师资格证持证人

该用户很懒,什么也没介绍

版权声明书
用户编号:5104001331000010
认证主体仪征市联百电子商务服务部
IP属地江苏
领域认证该用户于2023年10月19日上传了教师资格证
统一社会信用代码/组织机构代码
92321081MA26771U5C

1亿VIP精品文档

相关文档