- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CART算法
CART算法CART与C4.5类似,是决策树算法的一种。基本思想CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,也就是在输入给定的条件下输出的条件概率分布。
CART算法CART算法由以下两步组成:决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时损失函数最小作为剪枝的标准。
CART算法决策树生成采用的是一种二分循环分割的方法,每次都把当前样本集划分为两个子样本集,使生成的决策树的结点均有两个分支,这样就构造了一个二叉树。用Gini指数最小化准则来进行分裂属性的选择?反映了从 D 中随机抽取两个样例,其类别标记不一致的概率。如果一个数据集D包含n个类
CART算法例:数据集D有9 个样本是buys_computer = “yes” , 5 个是“no”buys_computer?yesno
CART算法Gini指数反映了从 D 中随机抽取两个样例,其类别标记不一致的概率。Gini(D,a) 越小,分裂后产生的数据子集 的纯度越高。属性 a 的基尼指数:如果一个数据集D包含n个类???
CART算法属性 a 的基尼指数:?例:属性“student”的Gini指数计算过程如下?属性“student”有yes和no两个属性值:student = yes的样本有7个,其中类别为yes的有6个student=no的样本有7个,其中类别为yes的有3个
CART算法?incomelowmediumhighincomehighmediumlow或者incomemediumhighlow在候选属性集合中,选取那个使划分后基尼指数最小的
CART算法?incomehighmediumlow?
CART算法?incomehighmediumlowincomelowmediumhigh或者incomemediumhighlowGini{medium,low} is 0.443Gini{medium,high} is 0.450Gini{low,high} is 0.458?
CART算法ID3或C4.5 算法结果CART 算法结果
CART算法决策树的可视化graphviz的安装,下载地址在:/安装python插件graphviz:pip install graphviz(安装python插件pydotplus: pip install pydotplus
CART算法小结
THANKS
文档评论(0)