第四讲 Modeler分类预测:决策树算法(一).ppt

第四讲 Modeler分类预测:决策树算法(一).ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四讲 Modeler分类预测:决策树算法(一)

Boosting技术:投票过程(决策过程) 采用加权投票,给不同的模型赋予不同的权数,权数与模型的误差成反比,具体为: 对新样本X,每个模型Ci都给出预测值Ci(X),给预测类Ci(X)加权: 求各类权数的总和,总权数最高的类即为最终的分类结果 Bagging与Boosting技术的比较 Boosting示例 C5.0算法:Boosting技术 交叉验证:对于n折交叉验证,则在训练样本集合中重抽样n组样本建立n个模型,并计算每个模型训练样本集上的预测精度,且给出n个模型预测精度的平均值和标准差 未剪枝的决策树 Pruning severity中输入置信度。默认为100%-25%。值越大树越精简,预测精度会不理想(误差较高);需要反复尝试 C5.0算法:其他 C5.0算法:推理规则 直接从决策树得到推理规则很容易 决策树对逻辑关系的表述不是最简洁的 a b c c d d yes no yes no yes no no y y y y y y n n n n n n IF a AND b THEN yes IF c AND d THEN yes OTHERWISE no 生成推理规则的一般算法是PRISM(Patient Rule Induction Space Method )算法,Cendrowska于1987年提出.是一种“覆盖”算法,所生成的规则在训练样本集上是100%正确的 确定期望类别:yes 年龄段=A(2/5),年龄段=B(4/4),年龄段=C(3/5),性别=0(6/8),性别=1(3/6) IF 年龄段=B THEN 是否购买=yes 规则100%正确,更新数据集: 规则100%正确,更新数据集 年龄段=A(2/5),年龄段=C(3/5),性别=0(4/6),性别=1(1/4) IF 性别=0 THEN 是否购买=yes 年龄段=A(1/3),年龄段=C(3/3) IF 性别=0 AND 年龄段=C THEN 是否购买=yes 年龄段=A(2/5),年龄段=C(0/2),性别=0(1/3),性别=1(1/4) IF 年龄段=A THEN 是否购买=yes 性别=0(1/3),性别=1(1/2) IF 年龄段=A AND 性别=1 THEN 是否购买=yes(略去) C5.0算法:推理规则 利用规则集合对样本进行分类可能产生的问题: 样本可能符合多个分类结果相同的规则 样本可能符合多个分类结果不相同的规则 样本不符合任何规则 示例: 推理规则的预测置信度是普拉斯估计器调整后的结果 模型评价 Analysis结点 对比模型在训练样本集和检验样本集上的性能差异 对比不同模型的性能 确定相对合理的置信水平 折:如果总体的正确率为90%,错误率为10%,则2折表示10%的一半,即错误率下降一半(2折,3折为33%)。如果改进2折,则总体正确率为95%, C5.0算法:模型的评价 分类预测:决策树算法 (一) 分类预测 分类预测,就是通过向现有数据学习,使模型具备对未来新数据的分类预测能力。 数据包含: 输入变量 输出变量 分类和预测 分类:分类型输出变量 预测:数值型输出变量 决策树算法概述 决策树算法最早源于人工智能的机器学习技术,用以实现数据内在规律的探究和新数据对象的分类预测。 决策树算法属于有指导的学习 根结点 叶结点 内部结点 兄弟结点 2叉树 多叉树 决策树算法概述 决策树的种类: 分类决策树:树叶结点所含样本的输出变量的众数就是分类结果 回归决策树:树叶结点所含样本的输出变量的平均值就是预测结果 利用决策树进行分类预测: 对新数据进行分类预测时,只需按照决策树的层次,从根结点开始依次对新数据输入变量值进行判断并进入不同的决策树分支,直至叶结点为止 特点:分类预测是基于逻辑的 IF THEN 每个叶节点对应一条推理规则 决策树的几何意义 在确定每一步空间划分标准时都同时兼顾由此将形成的两个区域;希望在两个区域同时实现:同一区域中的尽可能多的样本输出变量取同一类别值 决策树的核心问题 第一,决策树的生长,即利用训练样本集完成决策树的建立过程; 第一,如何从众多的输入变量中选择一个当前最佳的分组变量; 第二,如何从分组变量的众多取值中找到一个最佳的分割点 决策树的核心问题 第二,决策树的修剪,即利用检验样本集对形成的决策树进行优化处理 过度拟和(Overfitting) 预修剪(pre-pruning)、后修剪(post-pruning) C5.0算法 ID3(1979年由J R Quinlan),C4.5,C5.0 C5.0的特点: 生成多叉树 输入变量可以是分类型也可以是数值型 输出变量为分类型 以信息增益率为标准确定最佳分

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档