网站大量收购闲置独家精品文档,联系QQ:2885784924

决策树与随机森林.pptx

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树与随机森林 北京10月机器学习班 ML在线公开课第1期 2021年1月11日目标任务与主要内容复习信息熵熵、联合熵、条件熵、互信息决策树学习算法信息增益ID3、C4.5、CARTBagging与随机森林的思想投票机制分类算法的评价指标ROC曲线和AUC值决策树的实例(Weka自带测试数据)注:Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站下载。复习:熵将离散随机变量X的概率分布为P(X=xi),那么定义熵为:假设P为连续随机变量,那么概率分布变成概率密度函数,求和符号变成积分符号。在不引起混淆的情况下,下面谈到的“概率分布函数〞,其含义是:1、假设X为离散随机变量,那么该名称为概率分布函数;2、假设X为连续随机变量,那么该名称为概率密度函数。对熵的理解熵是随机变量不确定性的度量,不确定性越大,熵值越大;假设随机变量退化成定值,熵为0均匀分布是“最不确定〞的分布熵其实定义了一个函数(概率分布函数)到一个值(信息熵)的映射。P(x)?H (函数?数值)泛函回忆一下关于“变分推导〞章节中对于泛函的内容。联合熵和条件熵两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示H(X,Y) – H(Y)(X,Y)发生所包含的信息熵,减去Y单独发生包含的信息熵——在Y发生的前提下,X发生“新〞带来的信息熵该式子定义为Y发生前提下,X的熵:条件熵H(X|Y) = H(X,Y) – H(Y)推导条件熵的定义式相对熵相对熵,又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等设p(x)、q(x)是X中取值的两个概率分布,那么p对q的相对熵是说明:相对熵可以度量两个随机变量的“距离〞在“贝叶斯网络〞、“变分推导〞章节使用过一般的,D(p||q) ≠D(q||p)D(p||q)≥0、 D(q||p) ≥0 提示:凸函数中的Jensen不等式互信息两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。I(X,Y)=D(P(X,Y) || P(X)P(Y))计算H(X)-I(X,Y)整理得到的等式H(X|Y) = H(X,Y) - H(Y)条件熵定义H(X|Y) = H(X) - I(X,Y)根据互信息定义展开得到有些文献将I(X,Y)=H(Y) – H(Y|X)作为互信息的定义式对偶式H(Y|X)= H(X,Y) - H(X)H(Y|X)= H(Y) - I(X,Y)I(X,Y)= H(X) + H(Y) - H(X,Y)有些文献将该式作为互信息的定义式试证明:H(X|Y) ≤H(X) ,H(Y|X) ≤H(Y)强大的Venn图:帮助记忆决策树示意图决策树 (Decision Tree) 决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类别。决策树学习是以实例为根底的归纳学习。决策树学习采用的是自顶向下的递归方法,其根本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类。决策树学习算法的特点决策树学习算法的最大优点是,它可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练实例进行较好的标注,就能够进行学习。显然,属于有监督学习。从一类无序、无规那么的事物(概念)中推理出决策树表示的分类规那么。决策树学习的生成算法建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有一下三种算法。ID3C4.5CART信息增益概念:当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵和条件熵分别称为经验熵和经验条件熵。信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。定义:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:g(D,A)=H(D) – H(D|A)显然,这即为训练数据集D和特征A的互信息。根本记号设训练数据集为D,|D|表示其容量,即样本个数。设有K个类Ck,k=1,2,…,K,|Ck|为属于类Ck的样本个数。Σk|Ck|=|D|。设特征A有n个不同的取值{a1,a2…an},根据特征A的取值将D划分为n个子集D1,D2,…Dn,|Di|为Di的样本个数,Σi|Di|=

文档评论(0)

189****5087 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7102116031000022
认证主体仪征市思诚信息技术服务部
IP属地江苏
统一社会信用代码/组织机构代码
92321081MA278RWX8D

1亿VIP精品文档

相关文档