网站大量收购闲置独家精品文档,联系QQ:2885784924

一种改进的C4.5决策树算法.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进的C4.5决策树算法.doc

一种改进的C4.5决策树算法   【关键词】数据挖掘 决策树 C4.5算法 信息增益率   1 引言   数据挖掘中决策树是解决分类问题的方法之一,是一种归纳学习算法。通过一组属性值向量和相应的类,采用归纳学习算法构造分类器和预测模型,能够从一组无序和无规则的数据中生成决策树形式的分类规则。决策树基本不依赖于任何专业领域的知识,所以在分类,预测和规则提取等领域都被广泛的应用。70 年代末,J.ROSS Quinlan提出了ID3算法后,在机器学习和知识发现领域决策树算法都得到了进一步应用和发展。   ID3算法的核心是选择属性时,用信息增益(information gain)作为选择属性的度量标准,在测试每一个非叶子结点时,能获得关于被测试记录最大的类别信息。虽然ID3算法具有算法清晰,方法简单和学习能力较强的优点,但是ID3算法不能处理连续的属性值,并且依赖于训练数据集的质量,只对数据集较小的情况有效,训练数据集在逐渐变大时,决策树可能会随之改变。由于ID3算法存在着许多需要改进的地方,为此,J.ROSS.Quinlan于1993提出了C4.5算法,对ID3算法进行了补充和改进。C4.5 算法具有ID3 算法优点的同时也改进和扩展了算法,使其产生易于理解和准确率较高的分类规则。相比于ID3算法,C4.5算法用信息增益率来选择属性,而不是ID3算法所用的信息增益;在ID3算法的基础上还增加了对连续属性的离散化、对不完整属性的处理能力和产生规则等功能。   2 C4.5算法   2.1 信息增益和信息增益率   设D是m个不同值的训练集有m个不同类Ci (i=1,2,…,m),设Ci, d是元组的集合,D和Ci, d中的元组个数是|D|和|Ci, d|。   2.1.1 信息增益   ID3算法中选择具有最高信息增益的属性作为节点N的分裂属性,使元组分类的信息量最小。期望信息为:   用|Ci, d|/|D|估计D中任意元组属于类Ci的概率Pi。Info(D)为D的熵。   若D的元组用属性A可分成v个不同的类{D1, D2,…,Dn}, Dj包含D中的元组且在A上有值aj,则属性A的信息熵为:   A属性上该划分的获得的信息增益为:   2.1.2 信息增益率   信息增益率用“分裂信息”值将信息增益规范化,假设以属性A的值为基准对样本进行分割,训练数据集D用分类信息SplitInfoA作为初始信息量划分成对应于属性A的有v个输出的v 个划分信息。定义如下:   信息增益率定义为信息增益与初始信息量的比值:   C4.5算法选取信息增益比最高的属性为集合D的测试属性,创建一个节点并为每个属性创建分支划分样本。   2.2 C4.5算法实现   假设用D代表当前样本集,当前候选属性集用A表示,则C4.5算法的流程图如图1所示。   3 C4.5算法的改进   3.1 C4.5算法改进原理   C4.5算法得到很好的应用,但是还存在一些不足,C4.5 算法因为要对数据集进行多次的扫描和排序所以算法的效率降低。根据信息量计算公式的特点,改进划分函数的属性选择度量计算公式和连续属性处理方法,简化信息量的计算复杂度,提高C4.5算法的执行效率。   C4.5算法由于大量使用了对数函数进行熵值运算,增加了计算机的运算时间,降低了每一次属性选择时算法的运算效率,所以为了解决这个问题,引入泰勒中值定理和麦克劳林展开式,对熵值中的对数运算进行变换,优化熵值运算,缩短其运算时间。   C4.5 算法对每个分割点都要计算相应的熵值,才能得到最优的分割点,所以在选择最佳的属性分割点时效率较低。为了解决这个问题,引入边界点定义和Fayyad 定理。   边界点定义:设序列L={x1, x2,…, xn}为升序排列的有序序列,实例X所属的类为Cx。如果有实例xi和xj(其中j=i+1),且Cxi≠Cxj,则边界点Bp =(xi +xj)/2。   Fayyad 定理:连续属性 X 各个候选分割点对应的信息熵值的最小值一定在边界点 Bp上取得。   由以上定理可知,连续属性的最优分割点在计算时,只需要通过比较属性值序列在边界点的最小信息熵值,就可以计算出该属性的最大修正信息增益率,减少了候补分割点,因此可以大大提高了计算的效率。   3.2 实验及结果分析   使用Weka 作为数据挖掘平台,对改进C4.5算法与传统C4.5算法的分类性能进行比较。实验所需数据来自于UCI数据集中IRIS的样本实例。算法执行效率及分类正确率实验结果如图2、3所示。   随着样本实例数的增加,改进算法的执行效率得到提高的同时分类的正确率也有一定的提升,因此改进的 C4.5 算法缩短了数据分析的等待时间,提高工作

文档评论(0)

神话 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5203223011000000

1亿VIP精品文档

相关文档