- 1、本文档共53页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
10.决策树学习讲述
* 隐形眼镜例子(1) 上述属性和人群分类一律按顺序用数字1, 2…表示,可以假设根据属性a、b、c、d有如下表的分类(纯属虚拟) * 决策树学习概述 决策树学习的适用问题 决策树建树算法 决策树学习中的假设空间有哪些信誉好的足球投注网站 决策树学习的归纳偏置 决策树学习的常见问题 OUTLINE * 决策树学习中的假设空间有哪些信誉好的足球投注网站 将建树过程视为在假设空间中的有哪些信誉好的足球投注网站过程 采用爬山算法遍历整个假设空间,从空树开始,逐步增加节点,直到正确分类为止 引导爬山的评估函数是信息增益度量 * 决策树学习中的假设空间有哪些信誉好的足球投注网站 观察ID3的有哪些信誉好的足球投注网站空间和有哪些信誉好的足球投注网站策略,认识到这个算法的优势和不足 假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间 维护单一的当前假设(不同于第二章的变型空间候选消除算法) 不进行回溯,可能收敛到局部最优 每一步使用所有的训练样例,不同于基于单独的训练样例递增作出决定,容错性增强 * 决策树学习概述 决策树学习的适用问题 决策树建树算法 决策树学习中的假设空间有哪些信誉好的足球投注网站 决策树学习的归纳偏置 决策树学习的常见问题 OUTLINE * 决策树学习的归纳偏置 ID3的有哪些信誉好的足球投注网站策略 优先选择较短的树 选择那些信息增益高的属性离根节点较近的树 很难准确刻画ID3的归纳偏置 近似的ID3的归纳偏置 较短的树比较长的树优先,信息增益高的属性更靠近根节点的树优先 * 限定偏置和优选偏置 ID3和候选消除算法的比较 ID3的有哪些信誉好的足球投注网站范围是一个完整的假设空间,但不彻底地有哪些信誉好的足球投注网站这个空间 候选消除算法的有哪些信誉好的足球投注网站范围是不完整的假设空间,但彻底地有哪些信誉好的足球投注网站这个空间 ID3的归纳偏置完全是有哪些信誉好的足球投注网站策略排序假设的结果,来自有哪些信誉好的足球投注网站策略 候选消除算法完全是假设表示的表达能力的结果,来自对有哪些信誉好的足球投注网站空间的定义 * 限定偏置和优选偏置 优选偏置 ID3的归纳偏置是对某种假设胜过其他假设的一种优选,对最终可列举的假设没有硬性限制 限定偏置 候选消除算法的偏置是对待考虑假设的一种限定 通常优选偏置比限定偏置更符合归纳学习的需要 优选偏置和限定偏置的结合 例如:第一章中描述的下棋程序 * 决策树学习概述 决策树学习的适用问题 决策树建树算法 决策树学习中的假设空间有哪些信誉好的足球投注网站 决策树学习的归纳偏置 决策树学习的常见问题 OUTLINE * 决策树学习的常见问题 确定决策树增长的深度 处理连续值的属性 处理属性值不完整的训练数据 * 问题1:避免过度拟和数据 过度拟合 对于一个假设,当存在其他的假设对训练样例的拟合比它差,但事实上在实例的整个分布上表现得却更好时,我们说这个假设过度拟合训练样例 定义:给定一个假设空间H,一个假设h?H,如果存在其他的假设h’?H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’的错误率比h小,那么就说假设h过度拟合训练数据。 * 问题1:避免过度拟和数据 * 问题1:避免过度拟和数据(1) 导致过度拟合的原因 一种可能原因是训练样例含有随机错误或噪声 当训练数据没有噪声时,过度拟合也有可能发生,特别是当少量的样例被关联到叶子节点时,很可能出现巧合的规律性,使得一些属性恰巧可以很好地分割样例,但却与实际的目标函数并无关系。 例如:见下页 * 问题1:避免过度拟和数据(1) High Normal Strong Weak Outlook Wind Humidity Sunny Overcast Rain Yes No Yes No Yes 训练样例集中加入一条训练正例,但被错误标示为反例: Outlook=Sunny, Temp=Warm, humidity=Normal, Wind=Strong,PlayTennis=no * 问题1:避免过度拟和数据(2) 避免过度拟合的方法 及早停止树增长:在ID3算法完美分类训练数据前停止树增长 后修剪法:允许树过度拟合数据,然后对树进行修剪 两种方法的特点 第一种方法更直观,但是精确地估计何时停止树增长很困难 第二种方法被证明在实践中更成功 * 问题1:避免过度拟和数据(3) 如何确定最终正确树的规模 使用与训练样例不同的一套分离的样例,来评估通过后修剪法的效果 适用所有可用的数据进行训练,但进行统计测试来估计扩展(修剪)一个节点是否可能改善在训练集之外的性能 使用明确标准来衡量训练样例和决策树的复杂度 * 问题1:避免过度拟和数据(3) 后修剪法:错误率降低修剪 该方法考虑将树上的每一个节点作为修剪的候选对象。修剪一个节点的步骤: 1 删除此节点为根的子树,使它成为叶子节点 2 把和该节点关联的训练样例的最常见分类赋给它。 仅当修剪后的树对于测试集合的性能不比原来的树差时才删除该节点 * * 问题2:合并连续值属性 ID3被限制为取离散值的属性 学习到的决策树要预测的目标属性必须是离散的 树的决策节点的属性也必
您可能关注的文档
最近下载
- 专题02 宇宙中的地球-5年(2020-2024)高考1年模拟地理真题分类汇编(北京专用)(解析版).docx VIP
- 城市绿地分类标准 .pdf VIP
- 营养指导员题库.docx VIP
- 专题01 地球和地图-5年(2020-2024)高考1年模拟地理真题分类汇编(北京专用)(解析版).docx VIP
- 四年级【语文(统编版)】古诗三首(第一课时)课件 .pptx
- 质量管理体系工具统计技术.pptx VIP
- 2022年茅台考试真题及答案——计算机专业.pdf
- 发电机短路试验中转子接地保护误动作分析及关键问题探讨.pdf VIP
- Silvaco傻瓜教程—张林—长安大学—2018.06.pdf
- SpringBoot学习笔记(实用完整版).pdf VIP
文档评论(0)