- 1、本文档共32页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
以ID算法为例探讨数据挖掘中决策树算法的应用
首先确定所要生成的决策树的相关分类 C,如“销售业绩good”,销售业绩bad”。 1.树以代表训练样本的单个节点开始。 2.若样本都属于 C,则该节点成为叶,并标记该节点概率权值为1。 3.否则,算法使用称为“信息增益”的基于熵的度量作为启发信息,选择能够最好的将样本分类的属性。该属性成为节点的“测试”或“分支”属性。 4.对于测试属性的每个已知值,创建一个分支,并根据此划分样本。 ID3算法说明 5.算法使用同样的过程,递归的形成每个划分上的样本决策树。一旦一个属性出现在一个节点上,就不会在该分支再次出现。 6.递归划分步骤当且仅当下列条件之一成立时停止: (1)给定节点的所有样本都属于 C 或者都不属于 C。此时当前节点成为叶子节点,并标记该节点的概率权值为1或0。 (2)没有剩余属性可用来进一步划分样本。此时当前节点成为叶子节点,并标记该节点的概率权值为C类样本在样本中所占比例。 (3)分支 test_attribute=ai 没有样本。在这种情况下,以samples中的多数类创建一个树叶。 ID3算法说明 决策树很容易转换成分类规则,并以 IF-THEN 形式的分类规则表示。对从根到树叶的每条路径创建一个规则。IF-THEN 规则易于理解,特别是当给定的树比较大的时候。我们用IF-THEN形式的分类规则提取决策树中表示的知识,企业可以从中发现销售规律,以便制定未来更有效的营销策略。 由决策树提取分类规则 1.IF education= “H” AND area= “I” OR(area= “Ⅱ”) AND age= “=30” AND level= “high” THEN achievement= “good” 2.IF education= “H” AND area= “I” AND age= “31-50” AND THEN achievement= “good” 3.IF education= “H” AND area= “I” AND age= “=30” AND level = “low” THEN achievement= “bad” 4.IF education= “M” AND level = “high” AND age= “=30” OR(age= “31-50” AND area= “I”) THEN achievement= “good” 5.IF education= “M” AND level= “high” AND age= “=50” OR(age= “31-50” AND area= “Ⅱ”) THEN achievement= “bad” 分类规则 前三条分类规则说明该企业的高档产品对于本地区受过高等教育的年轻客户的吸引力较大,低档产品对该类客户的吸引力较小;该企业的各档次产品对于本地受过高等教育的中年客户吸引力均较大。 分类规则说明 后两条规则说明企业的高档产品对于受过中等教育的年轻客户或者本地的中年客户吸引力较大;高档产品在受过中等教育的老年客户或者外地区的中年客户中不很受欢迎。因此该企业可以加大高档产品在年轻客户中的宣传以及各档次产品在本地受过高等教育的中年客户中的宣传,他们是该企业的一个重点客户群。在外地区针对受过中、高等教育的中年及老年客户的销售业绩还有待提高。该企业的产品对于教育程度较低的客户群销售业绩比较平稳。 分类规则说明 ID3 算法的理论清晰,方法简单,学习能力较强,但是 ID3 算法也有其不足之处,主要有以下几点: ID3 算法利用信息增益作为分类评价函数来选取最优属性,而这种选择标准容易倾向于选择取值较多的属性,但取值较多的属性并不都是最重要的属性。 ID3算法只能处理具有离散值的属性,不适合处理连续值属性。 ID3 算法是非增量式算法。对于增量式学习任务来说,由于 ID3 不能增量地接受训练实例,每增加一次实例都必须抛弃原有决策树,重新构造新的决策树,造成较大开销。 ID3算法没有考虑训练集中的缺值问题。 ID3算法优缺点 * * 以ID3算法为例探讨数据挖掘中决策树算法的应用 主讲:郭佳 2013.11.28 决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由Quinlan在1986年提出的著名的基于信息熵的ID3算法。接下来主要介绍ID3算法。 决策树算法的概念 由ID3算法得到的决策树 决策树分类是一种从无次序、无规则的训练样本集中推理出决策树表示形式的分类规则的方法。它采用自顶向下的方法,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结
文档评论(0)