网站大量收购独家精品文档,联系QQ:2885784924

Clementine决策树C5.0算法供参习.docxVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Clementine决策树C5.0算法供参习

C5.0算法的优缺点输出类型:指定分析输出的内容。指定希望最终生成的模型是决策树还是规则集。组符号:如果选择该选项,C5.0会尝试将所有与输出字段格式相似的字符值合并(采用ChiMerge分箱法检查当前分组变量个各个类别能否合并,如果可以应先合并后再分支)。如果没有选择该选项,C5.0会为用于拆分母节点的字符字段的每个值创建一个子节点。使用推进:提高其精确率。这种方法按序列建立多重模型。第一个模型以通常的方式建立。随后,建立第二个模型,聚焦于被第一个模型错误分类的记录。以此类推,最后应用整个模型集对样本进行分类,使用加权投票过程把分散的预测合并成综合预测。试验次数选项允许控制用于助推的模型数量。交互验证:如果选择了该选项,C5.0将使用一组基于训练数据自己建立的模型,来估计基于全部数据建立的模型的精确度。如果数据集过小,不能拆分成传统意义上的训练集和测试集,这将非常有用。或用于交叉验证的模型数目。模式:对于简单的训练,绝大多数C5.0参数是自动设置。高级训练模式选项允许对训练参数更多的直接控制。简单模式:偏好(支持):选择“准确性”C5.0会生成尽可能精确的决策树,某些情况下,会导致过度拟合。选择“普遍性”以使用不易受该问题影响的算法设置。预期噪声(%):指定训练集中的噪声或错误数据期望比率专家模式:修剪纯度:决定生成决策树或规则集被修剪的程度。提高纯度值将获得更小,更简洁的决策树。降低纯度值将获得更加精确的决策树。子分支最小记录数:子群大小可以用于限制决策树任一分支的拆分数。全局修剪:第一阶段:局部修剪;第二阶段:全局修剪。辨别属性:如果选择了该选项,C5.0会在建立模型前检测预测字段的有用性。被发现与分析无关的预测字段将不参与建模过程。这一选项对许多预测字段元的模型非常有用,并且有助于避免过度拟合。C5.0”成本”选项见“CHAID“成本”选项----误判成本值,调整误判C5.0的模型评价可通过Analysis节点实现。另外Analysis还可以实现不同模型之间的评估对比可通过Evaluation节点实现模型评估

文档评论(0)

dart004 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档