- 1、本文档共102页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
人工智能第章机器学习
《人工智能》 第5章 机器学习 机器学习、知识发现与数据挖掘 影响学习系统设计的重要因素 数据化简 机械学习的主要问题 归纳概括规则 5.3.3 归纳学习示例--决策树学习 决策树表示法 决策树通过把实例从根节点排列(sort)到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每一个节点说明了对实例的某个属性(attribute)的测试,并且该节点的每一个后继分枝对应于该属性的一个可能值。 分类实例的方法是从这颗树的根节点开始,测试这个节点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。然后这个过程再以新节点为根的子树上重复。 决策树的适用问题 决策树学习适合解决具有以下特征的问题 实例是由“属性-值”对表示的:实例是用一系列固定的属性和它们的值来描述的。 目标函数具有离散的输出值:决策树给每个实例赋予一个布尔型的分类。决策树方法很容易扩展到学习有两个以上输出值的函数。 可能需要析取的描述:决策树很自然地代表了析取表达式。 训练数据可以包含错误:决策树学习对错误有很好的健壮性,无论是训练样例所属的分类错误,还是描述这些样例的属性值错误。 训练数据可以包含缺少属性值的实例:决策树甚至可以再有未知属性值的训练样例中使用。 决策树学习的常见问题 确定决策树增长的深度,避免过度拟合; 处理连续值的属性; 选择一个适当的属性筛选度量标准; 处理属性值不完整的训练数据; 处理不同代价的属性; 提高计算效率。 ID3算法 大多数已开发的决策树学习算法是一种核心算法(CLS算法)的变体。该算法采用自顶向下的贪婪有哪些信誉好的足球投注网站遍历可能的决策树空间。这种方法是ID3算法(Quinlan 1986)和后继的C4.5(Quinlan 1993)的基础。 ID3是一种自顶向下增长树的贪婪算法,在每个节点选取能最好分类样例的属性。继续这个过程指导这棵树能完美分类训练样例,或所有的属性都已被使用过。 构造过程是从“哪一个属性将在树的根节点被测试”这个问题开始。为了回答这个问题,使用统计测试来确定每一个实例属性单独分类训练样例的能力。分类能力最好的属性被选作树的根节点的测试。然后为根节点属性的每个可能值产生一个分枝,并把训练样例排列到适当的分枝(也就是,样例的该属性值对应的分枝)之下。然后重复整个过程,用每个分枝节点关联的训练样例来选取在该点被测试的最佳属性。这形成了对合格决策树的贪婪有哪些信誉好的足球投注网站,也就是算法从不回溯重新考虑以前的选择。 决策树的构建 已知训练样本集,构造决策树需要解决以下几个问题(考虑Binary Decision Trees): (1)最佳提问的选择:应该先对哪一个属性提出问题?应该按什么样的顺序提出问题? 每一个问题都是一个YES/NO问题。 (2)叶结点的确定:什么时候可以结束提问,并判定模式的类别? (3)决策树修剪:如果决策树过大,应该如何修剪决策树,以保证其泛化能力? 最佳提问的选择(1) (1)决策树中的每一个结点(叶结点除外)对应于一个提问。每一个叶结点给出最终的分类。决策树的构建从根结点开始。 (2)根结点的构建:根结点对应于训练样本集D。通过选择针对某一属性的一个问题进行提问,可以根据对该问题的回答,将训练样本集D分类两个部分:Dy及Dn (其中, Dy为回答YES的样本, Dn为回答NO的样本) ,并建立与之相对应的两个子结点。我们希望选择一个这样问题进行提问:使得Dy及Dn尽可能纯净。 (3)中间结点的构造:对于每一个中间结点(结点N),都有一个与之对应的子集DN。同样,根据结点N的提问,可以将DN进一步划分为两个部分DNy及DNn(其中, DNy为回答YES的样本, DNn为回答NO的样本),并得到与之相对应的两个子结点。我们希望根据结点N提出的问题,能够使DNy及DNn尽可能纯净。 最佳提问的选择(2) (4)当如上得到的某一个子结点足够纯净时,就可以确定该结点为叶结点,并给出其类别。 (5)当决策树中的每一条路径都对应于一个叶结点时,学习过程结束,决策树构建完毕。 (6)根据上述准则(纯净度准则)构建决策树,可以保证决策树的复杂度较小(结点数量少、深度小)。 (7)在对训练集分类能力相近的条件下,复杂度小的决策树(分类器)优于复杂度大的决策树(分类器)。复杂度小的分类器通常具有较好的泛化能力。这一原则称为Occam’s razor。 最佳提问的选择(3) 最佳提问的选择(4) 最佳提问的选择(5) (10)结点n最佳问题的选择范围: 需要枚举出所有可以提出的问题,从中选出有效的问题,并在这些有效的问题中选择一个最佳的问题。 由于特征的数量是有限的,每个特征的可能取值也是有限的,所以所有可能提出的问题是可以枚举的。
您可能关注的文档
最近下载
- TBIE 004—2023通孔回流焊接技术规范团标.pdf
- 国开《MySQL数据库应用》形考1-4(试题及答案).pdf VIP
- 煤矿安全生产作业规程操作规程安全技术措施编制审批贯彻及执行管理制度.doc
- 2020年光学膜行业研究报告.pdf
- 采血管种类和应用ppt课件.pptx VIP
- 职业生涯报告六篇.pdf VIP
- Unit 4 Plants arounds us PartA Let's talk(课件)人教PEP版(2024)英语三年级上册.pptx
- 七年级上册生物:必考问答式知识点汇总(背诵+默写).docx
- 《青纱帐——甘蔗林》课件【中职专用】高教版 基础模块下册.pptx
- 国家开放大学学位英语历年真题试卷号1909.docx
文档评论(0)