- 1、本文档共39页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《机器学习》周志华 第4章 决策树 第5章 神经网络和深度学习 第6章 支持向量机 第8章 集成学习 第9章 聚类 关联规则学习 第4章 决策树 根据训练数据是否拥有标记信息 学习任务 决策树(decision tree)模型常常用来解决分类和回归问题。常见的算法包括 CART (Classification And Regression Tree)、ID3、C4.5等。 半监督学习:输入数据部分被标识,部分没有被标识,介于监督学习与非监督学习之间。 分类、回归 聚类 监督学习(supervised learning) 无监督学习(unsupervised learning) 半监督学习(semi-supervised learning) 强化学习(reinforcement learning) 二分类学习任务 属性 属性值 根结点:包含全部样本 叶结点:对应决策结果 “好瓜” “坏瓜” 内部结点:对应属性测试 决策树学习的目的:为了产生一颗泛化能力强的决策树,即处理未见示例能力强。 无需划分 无法划分 不能划分 无需划分 无法划分 不能划分 Hunt算法: 1,2,3,4,5,6,8,10,15 1,2,3,4,5 6,8,15 10 6 8,15 8 15 第(2)种情形:设定为该结点所含样本最多的类别 利用当前结点的后验分布 第(3)种情形:设定为其父结点所含样本最多的类别 把父结点的样本分布作为当前结点的先验分布 决策树学习的关键是算法的第8行:选择最优划分属性 什么样的划分属性是最优的? 我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高,可以高效地从根结点到达叶结点,得到决策结果。 三种度量结点“纯度”的指标: 信息增益 增益率 基尼指数 1. 信息增益 香农提出了“信息熵”的概念,解决了对信息的量化度量问题。 香农用“信息熵”的概念来描述信源的不确定性。 信息熵 对于二分类任务 一个事件的信息量就是这个事件发生的概率的负对数。 信息熵是跟所有事件的可能性有关的,是平均而言发生一个事件得到的信息量大小。所以信息熵其实是信息量的期望。 假设我们已经知道衡量不确定性大小的这个量已经存在了,不妨就叫做“信息量” 不会是负数 不确定性函数 是概率 的单调递减函数; 可加性:两个独立符号所产生的不确定性应等于各自不确定性之和,即 同时满足这三个条件的函数 是负的对数函数,即 信息增益 一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大。 决策树算法第8行选择属性 著名的ID3决策树算法 举例:求解划分根结点的最优划分属性 根结点的信息熵: 以属性“色泽”为例计算其信息增益 数据集包含17个训练样例: 8个正例(好瓜)占 9个反例(坏瓜)占 对于二分类任务 用“色泽”将根结点划分后获得3个分支结点的信息熵分别为: 属性“色泽”的信息增益为: 若把“编号”也作为一个候选划分属性,则属性“编号”的信息增益为: 根结点的信息熵仍为: 用“编号”将根结点划分后获得17个分支结点的信息熵均为: 则“编号”的信息增益为: 远大于其他候选属性 信息增益准则对可取值数目较多的属性有所偏好 2. 增益率 增益率准则对可取值数目较少的属性有所偏好 著名的C4.5决策树算法综合了信息增益准则和信息率准则的特点:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。 3. 基尼指数 基尼值 基尼指数 著名的CART决策树算法 过拟合:学习器学习能力过于强大,把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,导致泛化性能下降。 欠拟合:学习器学习能力低下,对训练样本的一般性质尚未学好。 过拟合无法彻底避免,只能做到“缓解”。 剪枝,即通过主动去掉一些分支来降低过拟合的风险。 预剪枝 决策树的剪枝策略 后剪枝 预剪枝:在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点 后剪枝:先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。 留出法:将数据集D划分为两个互斥的集合:训练集S和测试集T 且 预剪枝 1,2,3,14 训练集:好瓜 坏瓜1,2,3,6,7,10,14,15,16,17 6,7,15,17 10,16 精度:正确分类的样本占所有样本的比例 4,5,13 (T,T,F) 8,9 (T,F) 11,12 (T,T) 验证集:4,5,8,9,11,12,13 不足: 基于“贪心”本质禁止某些分支展开,带来了欠拟合的风险 预剪枝使得
文档评论(0)