第9章-预测建模:分类和回归.pptVIP

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第9章-预测建模:分类和回归

五邑大学信息学院  何国辉 1. 信息增益(续) 计算信息增益的思路: 首先计算不考虑任何输入变量的情况下,要确定T中任一样本所属类别需要的信息Info(T); 计算引入每个输入变量X后,要确定T中任一样本所属类别需要的信息Info(X,T); 计算两者的差Info(T)-Info(X,T),此即为变量X的信息增益,记为Gain(X,T)。 1. 信息增益(续) 计算熵Info(T) 如果不考虑任何输入变量,而将训练集T中的所有样本仅按照响应变量Y的值分到m个不相交的类别C1、C2、...、Cm的话,要确定任一样本所属的类别需要的信息为: m Info (T)=-Σi=1 (|Ci| /|T|).log2(|Ci| /|T|)) 以2为底的原因是:信息按二进制位编码 1. 信息增益(续) 计算熵Info(X,T) 如果考虑某个输入变量X,将训练集T按照X的值划分为n个子集T1、T2、...、Tn的话,要确定T中任一样本所属的类别需要的信息为: 其中: 注:Sj为Tj中属于类别Cj的样本子集。 n Info (X,T)=-Σi=1 (|Ti| /|T|).Info(Ti) m Info (Ti)=-Σj=1 (|Sj| /|Ti|).log2(|Sj| /|Ti|) 1. 信息增益(续) 计算增益Gain(X,T) Gain(X,T)=Info(T)-Info(X,T) 所有变量的信息增益计算完后,可以根据信息增益的大小多所有输入变量进行排序,优先使用信息增益大的变量。 1. 信息增益(续) 举例:本例将如下表数据作为训练集。 1. 信息增益(续) 类1 假 96 C 类1 假 80 C 类1 假 80 C 类2 真 70 C 类2 真 80 C 类1 假 75 B 类1 真 65 B 类1 假 78 B 类1 真 90 B 类1 假 70 A 类2 假 95 A 类2 假 85 A 类2 真 90 A 类1 真 70 A 属性4 属性3 属性2 属性1 数据库T: 训练例子的简单平面数据库 1. 信息增益(续) 其中:有9个样本属于类1,有5个样本属于类2。因此分区前的熵为: Info(T)= -9/14.log2(9/14) -5/14.log2(5/14) = 0.940比特 1. 信息增益(续) 根据属性1把初始样本集分区成3个子集(检验x1表示从3个值A,B或C中选择其一)后,得出结果: Infox1(T)=5/14(-2/5 log2(2/5) -3/5 log2(3/5) ) + 4/14(-4/4 log2(4/4) -0/4 log2(0/4) ) + 5/14(-3/5 log2(3/5) -2/5 log2(2/5) ) =0.694比特 通过检验x1获得的信息增益是: Gain(x1) = 0.940 – 0.694 = 0.246比特 1. 信息增益(续) 类似地,根据属性3检验x2表示从真或假两个值选择其一),类似地有: Info x2(T)=6/14(-3/6 log2(3/6) -3/6 log2(3/6) ) + 8/14(-6/8 log2(6/8) -2/8 log2(2/8) ) =0.892比特 通过检验x2获得的信息增益是: Gain(x2) = 0.940 – 0.892 = 0.048比特 1. 信息增益(续) 依次类推,计算出其它属性获得的增益。 通过获得的两个增益比较,按照增益准则,将选择x1作为分区数据库T的最初检验(作为根节点创建)。 为了求得最优检验还必须分析关于属性2的检验,它是连续取值的数值型属性。 ID3算法无法解决数值型属性,需要通过其改进型--C4.5算法。 1. 信息增益(续) T1 检验X1: 属性1=? 类1 假 70 类2 假 95 类2 假 85 类2 真 90 类1 真 70 类 属性3 属性2 类1 假 75 类1 真 65 类1 假 78 类1 真 90 类 属性3 属性2 类1 假 96 类1 假 80 类1 假 80 类2 真 70 类2 真 80 类 属性3 属性2 T2 T3 A B C 叶结点 根据属性1进行数据集划分 1. 信息增益(续) 在得到前面的第一次划分以后,再分别对划分后的T1、T2、T3三个子集继续分裂。 其中T2对应的数据子集都属于同一个类别类1,无需继续分裂。 1. 信息增益(续) 结合C4.5算法后,得到的决策树。 X1: 属性1 X4: 属性2 X5: 属性

文档评论(0)

zijingling + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档