- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ID3算法及其改进
总第 240 期
2009 年第 10 期
计算机与数字工程
Co mp ut er Digital Engineering
Vol . 37 No . 10
19
3
ID3 算法及其改进
徐 雯 张 扬
(中国地质大学计算机学院 武汉 430074)
摘 要 文章对 ID3 算法的基本概念和原理进行了相应的详细阐述以及解释说明 ,并针对 ID3 算法倾向于取值较多的
属性的缺点 ,引进信息增益率对 ID3 算法作了改进 ,并通过实验对改进前后的算法进行了比较 ,实验表明 ,改进后的算法行 之有效 。
关键词 决策树 ID3 算法 信息增益 增益率
中图分类号 T P301 . 6
I D 3 Al go ri t h m a n d I ts I mp r o ve m e n t
Xu We n Z h a ng Ya ng
( D ep a r t me n t of C o mp ut e r Scie nc e C olle ge , C hi na U ni ve rsi t y of Ge osci e nc es , W u h a n 430074)
A bs t r a c t Th e a r t icle l a r gel y desc ri bes a n d e xp l ai ns t he basic c o nc ep t a n d t he p ri ncip le of de cisi o n t r e e I D 3 al g o2 ri t h m , h ow e ve r , decisi o n t r e e I D 3 al go ri t h m t e n ds t o c h o ose a t t ri b ut es t h a t a r e s a mp le d m o r e of t e n , s o f oc usi n g o n t his def icie nc y . T he p ap e r i nt r o duc e gai n r a t i o t o i mp r o ve t h e I D 3 al go ri t h m , a n d t he n c o mp a r e t he o ri gi n al al go ri t h m w i t h
t he m o dif i e d al go ri t h m by e xp e r i me n t , w h os e r es ul t p r o ves t he i mp r o ve d al g o ri t h m m o r e ef f ici e n t t h a n o ri gi n al o ne .
Ke y w o r ds de cisi o n t r e e , I D 3 al go ri t h m , i nf o r m a t i o n gai n , gai n r a t i o
Cl a s s N u m b e r T P301 . 6
再设一个属性 A 取 v 个不同的值 { a1 , a2 ,
, av } 。
1
引言
数据挖掘是在大量的数据中发现潜在的 、有价
利用属性 A 可 以 将 集 合 S 划 分 为 v 个 子 集 { S1 ,
, S v } , 其中 S j 包含了 S 集合中属性 A 取 a j
S2 ,
值的模式和数据间关系的过程[ 1 ] 。而在处理实际
的各类问题中 ,决策树 ID3 算法会偏向于选择取值 较多的属性 ,本文针对这个不足之处 ,对 ID3 算法
作了改进 , 并 通过 实 验验 证改 进 后的 算法 是 有 效 的 。
值的数据样本 。若属性 A 被选为测试属性 , 设 S ij
为子集 S j 中属于 C i 类别的样本数 。那么利用属 性 A 划分当前样本集合所需要的信息熵为 :
v
+ S
+
+ S
S
1 j
2 j
mj
E ( A ) =
∑
I ( S 1 j ,
, S mj )
( 2)
s
j = 1
S 1 j + S 2 j + + S mj
其中
是由所有子集中属性 A 取
2
ID3 算法原理
设 S 为一个包含 s 个数据样本的集合 , 其类别
s
a j 值的样本数之和除以 S 集合中的样本总数 。 E
( A ) 计 算 结 果 越 小 , 就 表 示 其 子 集 划 分 结 果 越 “纯”。而对于一个给定子集
文档评论(0)