网站大量收购闲置独家精品文档,联系QQ:2885784924

C算法在Clementine中的应用.ppt

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
C算法在Clementine中的应用

C 5.0 报告人:石 磊 指导教师:谢邦昌 日期:2007年11月30日 C 5.0 C5.0 是Clementine的决策树模型中的算法 最早(20世纪50年代)的算法是亨特CLS(Concept Learning System)提出,后经发展由J R Quinlan在1979年提出了著名的ID3算法,主要针对离散型属性数据 C4.5是ID3后来的改进算法,它在ID3基础上增加了: --对连续属性的离散化 C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进 Clementine的决策树模型 决策树(Decision Tree)模型,也称规则推理模型 通过对训练样本的学习,建立分类规则 依据分类规则,实现对新样本的分类 属于有指导(监督)式的学习方法,有两类变量: 目标变量(输出变量) 属性变量(输入变量) 决策树模型与一般统计分类模型的主要区别 决策树的分类是基于逻辑的,一般统计分类模型是基于非逻辑的 Clementine的决策树模型 常用的算法有CHAID、CART、 Quest 和C5.0。 对每个决策都要求分成的组之间的“差异”最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。 决策树很擅长处理非数值型数据,这与神经网络只能处理数值型数据比起来,就免去了很多数据预处理工作。 C5.0原理介绍 C5.0是经典的决策树模型的算法之一,可生成多分支的决策树,目标变量为分类变量 使用c5.0算法可以生成决策树(decision tree)或者规则集(rule sets)。C5.0模型根据能够带来最大信息增益(information gain)的字段拆分样本。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行直到样本子集不能再被拆分为止。最后,重新检验最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者修剪。 C5.0的优点 优点: C5.0模型在面对数据遗漏和输入字段很多的问题时非常稳健。 C5.0模型通常不需要很长的训练次数进行估计。 C5.0模型比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释。 C5.0也提供强大的增强技术以提高分类的精度。 C 5.0 算法 C5.0算法选择分支变量的依据 以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。信息熵的下降意味着信息的不确定性下降 C5.0节点模型选项 C5.0节点模型选项 交叉验证(Cross-validate):如果选择了该选项,C5.0将使用一组基于训练数据子集建立的模型,来估计基于全部数据建立的模型的精确度。如果数据集过小,不能拆分成传统意义上的训练集和测试集,这将非常有用。或用于交叉验证的模型数目。 模式(Mode):对于简单的训练,绝大多数C5.0参数是自动设置。高级训练模式选项允许对训练参数更多的直接控制。 C5.0节点模型选项 简单模式选项(simple) 偏好(Favor): 在accuracy下,C5.0会生成尽可能精确的决策树。在某些情况下,这会导致过度拟和。选择Generality(一般化)项以使用不易受该问题影响的算法设置。 期望噪声百分数(Expected noise (%)): 指定训练集中的噪声或错误数据期望比率。 C5.0节点模型选项 高级模式选项 修剪纯度(pruning severity):决定生成决策树或规则集被修剪的程度。提高纯度值将获得更小,更简洁的决策树。降低纯度值将获得更加精确的决策树。 子分支最少记录数(Minimum records per child branch):子群大小可以用于限制决策树任一分支的拆分数。只有当两个或以上的后序子分支包括来自训练集的记录不少于最小记录数,决策树才会继续拆分。默认值为2,提高该值将有助于避免噪声数据的过度训练。 全局修剪(Use global pruning): 第一阶段:局部修建 第二阶段:全局修剪 排除属性(Winnow attributes):如果选择了该选项,C5.0会在建立模型前检验预测字段的有用性。被发现与分析无关的预测字段将不参与建模过程。这一选项对有许多预测字段元的模型非常有用,并且有助于避免过度拟和。 错误归类损失选项 例子 例子—数据 例子—设置 例子—设置 例子—结果 例子-- decision tree 例子--model 例子--Rule Set 模型评价 模型评价---Gains Chart 横坐标通常为分位点(按置信度降序),纵坐标是累计Gains,定义为: 分位累计命中数/总命中数×100% 理想的Gains图应 在前期快速

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档