- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式识别实验报告9
深圳大学研究生课程:模式识别理论与方法
课程作业实验报告
实验名称: 分类回归决策树CART 的研究与实现
实验编号:Proj08-0 1
签 名:
姓 名:罗升
学 号:2140130418
截止提交日期:2015 年6 月29 日
摘要:分类回归决策树算法:CART 算法采用一种二分递归分割的技术,将当前的样本
集分为两个子样本集,使得生成的每个非叶子节点都有两个分支。
使用课本表中的数据来训练二叉分类树,训练过程中使用熵不纯度进行分支,并
用训练好的非剪枝完全树对{A,E,I,L,N},{D,E,J,K,N},{B,F,J,K,M}, {C,D,J,L,N}四个模式
进行分类,其分类结果与剪枝完全树对四个模式的分类结果相同。
1 / 10
一、 基本原理
分类回归决策树算法:CART(Classification And Regression Tree)算法采用一
种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的每个非
叶子节点都有两个分支。
分类树两个基本思想:第一个是将训练样本进行递归地划分自变量空间进行
建树的想法,第二个想法是用验证数据进行剪枝。
1. 决策树的生成
决策树采用自顶向下的递归方式:从根节点开始在每个节点上按照给定标准
选择测试属性,然后按照相应属性的所有可能取值向下建立分支,划分训练样本,
直到一个节点上的所有样本都被划分到同一个类,或者某一节点中的样本数量低
于给定值时为止。这一阶段最关键的操作是在树的节点上选择最佳测试属性,该
属性可以将训练样本进行最好的划分。
最流行的测量时所谓的“熵不纯度”(亦称为信息量不纯度):
i(N ) P( )log P( ) (1)
j 2 j
j
P( )
这里 是节点 N 处属于 类模式样本数占总样本数的频度。根据众做周知
j j
的熵的特性,如果所有模式的样本都来自同一类别,则不纯度为零,否则是大于
零的正值,当所有类别以等概率出现时,熵值取最大值。
另一种不纯度的定义在两类分类问题中特别有用。根据当节点样本均来自单
一类别时不纯度为0 的思想,可用如下多项式形式定义不纯度:
i(N) P( )P( ) (2)
1 2
一种推广了的可用于多类分类问题的方差不纯度,称为“Gini不纯度”:
2 (3)
i(N ) P( )P( ) 1P ( )
i j j
i j j
这也正是当节点 N 的类别标记任意选取时对应的误差率。当类别标记等概率时
“Gini不纯度”指标的峰度特性比“熵不纯度”要好。
“误分类不纯度”可以定义为:
i(N ) 1max P( ) (4)
您可能关注的文档
- handwriting 美国的“颜骨柳肌”,英语手写体字帖.pdf
- 我国煤基活性炭生产现状与发展趋势_孙仲超.pdf
- JDBC代码手册_李雪龙.pdf
- 量子信息与计算的量子体系,量子态表示,密度矩阵, 混合态,量子不可克隆定理, Schmidt分解,量子测量等.pdf
- 等离子发射检测器_PED_及相关技术在气相色谱中的应用_黎文宇_张晓红.pdf
- 船舶清洗市场趋势_全玉臣.pdf
- 中国区域IGS站高程时间序列季节性信号及长期趋势分析_明锋.pdf
- 模板-中国细菌耐药的演变趋势和挑战.pdf
- 沪教版二年级下册Unit3Can you hear a train第1课时(林美娴).doc
- 转基因玉米研究现状及发展趋势.pdf
文档评论(0)