- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Data Ming Project Report
Name:鸭哥私房
Class:xx软件工程一班
Student Number:xxxx
Project Name:决策树实验
Experiment Date:20xx年6月18日
1. Description of the project
1.1相关信息
决策树是一个类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输入,而每个树叶结点代表类或类分布。数的最顶层结点是根结点。一棵典型的决策树如图1所示。它表示概念buys_computer,它预测顾客是否可能购买计算机。内部结点用矩形表示,而树叶结点用椭圆表示。为了对未知的样本分类,样本的属性值在决策树上测试。决策树从根到叶结点的一条路径就对应着一条合取规则,因此决策树容易转化成分类规则。
图1
ID3算法:
■ 决策树中每一个非叶结点对应着一个非类别属性,树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。
■ 每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。
■ 采用信息增益来选择能够最好地将样本分类的属性。
信息增益基于信息论中熵的概念。ID3总是选择具有最高信息增益(或最大熵压缩)的属性作为当前结点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或“不纯性”。
1.2问题重述
1、目标概念为“寿险促销”
2、计算每个属性的信息增益
3、确定根节点的测试属性
2. Description of the solutions
构造决策树的方法是采用自上而下的递归构造,其思路是:
■ 以代表训练样本的单个结点开始建树(步骤1)。
■ 如果样本都在同一类,则该结点成为树叶,并用该类标记(步骤2和3)。
■ 否则,算法使用称为信息增益的机遇熵的度量为启发信息,选择能最好地将样本分类的属性(步骤6)。该属性成为该结点的“测试”或“判定”属性(步骤7)。值得注意的是,在这类算法中,所有的属性都是分类的,即取离散值的。连续值的属性必须离散化。
■ 对测试属性的每个已知的值,创建一个分支,并据此划分样本(步骤8~10)。
■ 算法使用同样的过程,递归地形成每个划分上的样本决策树。一旦一个属性出现在一个结点上,就不必考虑该结点的任何后代(步骤13)。
■ 递归划分步骤,当下列条件之一成立时停止:
(a)给定结点的所有样本属于同一类(步骤2和3)。
(b)没有剩余属性可以用来进一步划分样本(步骤4)。在此情况下,采用多数表决(步骤5)。这涉及将给定的结点转换成树叶,并用samples中的多数所在类别标记它。换一种方式,可以存放结点样本的类分布。
(c)分支test_attribute=ai 没有样本。在这种情况下,以samples中的多数类创建一个树叶(步骤12)。
算法 Decision_Tree(samples,attribute_list)
输入 由离散值属性描述的训练样本集samples;
候选属性集合attribute_list。
输出 一棵决策树。
(1) 创建节点N;
(2) If samples 都在同一类C中then
(3) 返回N作为叶节点,以类C标记;
(4) If attribute_list为空then
(5) 返回N作为叶节点,以samples 中最普遍的类标记;//多数表决
(6) 选择attribute_list 中具有最高信息增益的属性test_attribute;
(7) 以test_attribute 标记节点N;
(8) For each test_attribute 的已知值v //划分 samples
(9) 由节点N分出一个对应test_attribute=v的分支;
(10) 令Sv为 samples中 test_attribute=v 的样本集合;//一个划分块
(11) If Sv为空 then
(12) 加上一个叶节点,以samples中最普遍的类标记;
(13) Else 加入一个由Decision_Tree(Sv,attribute_list-test_attribute)返回节点值
E(S)=(-9\15)log2(9\15)-(6\15)log2(6\15)=0.971
Values(收入范围)={20-30K,30-40k,40-50K,50-60K}
E(S(20-30K))= (-2\4)log2(2\4)- (2\4)log2(2\4)=1
E(S(30-40K))= (-4\5)log2(4\5)- (1\5)log2(1\5)=0.7219
E(S(40-50K))= (
您可能关注的文档
- 嵌入式实验报告.doc
- 招聘管理系统设计.doc
- 杂志管理系统设计.doc
- 2024至2030年中国风水轮工艺品行业投资前景及策略咨询研究报告.docx
- 2010-2023历年安徽省百校论坛高三第一次联考历史卷.docx
- 2024年中国汽车不锈钢防撞架市场调查研究报告.docx
- 2024年中国汽车离合器用钢带市场调查研究报告.docx
- 2024至2030年K-波段双鉴移动探测器项目投资价值分析报告.docx
- 2024年中国多功能复合锯市场调查研究报告.docx
- 2024年切片粉碎机项目可行性研究报告.docx
- 2024年中国烘干机专用电动机市场调查研究报告.docx
- 2024至2030年感应门禁读卡器项目投资价值分析报告.docx
- 2024至2030年液化气热源吸风式单瓦楞机项目投资价值分析报告.docx
- 2024至2030年芝麻香辣酱项目投资价值分析报告.docx
- 2024至2030年中国低速气马达行业投资前景及策略咨询研究报告.docx
- 2024至2030年中国USB转多串口集线器行业投资前景及策略咨询研究报告.docx
- 2024至2030年中国水表零部件行业投资前景及策略咨询研究报告.docx
- 2024至2030年中国手术口罩行业投资前景及策略咨询研究报告.docx
- 2024至2030年中国螺纹式管制瓶行业投资前景及策略咨询研究报告.docx
- 2024至2030年中国蝉虱毙行业投资前景及策略咨询研究报告.docx
最近下载
- 【课件】爱护身体+课件-2024-2025学年统编版道德与法治七年级上册.pptx VIP
- 2015建筑施工承插型插槽式钢管支架安全技术规程_图.pdf VIP
- 表面组装技术 SMT工艺 2009年国家级精品课程配套教材 教学课件 作者 韩满林 22175表面组装技术课件.ppt
- 制冷课程设计.pdf
- 2024年心理健康教育知识点竞赛.pdf VIP
- 【中医大全】《医间道》.pdf
- 量子物理基础课程.ppt
- 护理学基础知识重点笔记.docx VIP
- 第10课《人类社会及其发展规律》第1框《人类社会的存在与发展》同步课堂精品课件-【中职专用】《哲学与人生》.pptx
- 科学出版社-江文杰编著《光电技术》习题答案-第5章.pdf
文档评论(0)