决策树实验作业.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Data Ming Project Report Name:鸭哥私房 Class:xx软件工程一班 Student Number:xxxx Project Name:决策树实验 Experiment Date:20xx年6月18日 1. Description of the project 1.1相关信息 决策树是一个类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输入,而每个树叶结点代表类或类分布。数的最顶层结点是根结点。一棵典型的决策树如图1所示。它表示概念buys_computer,它预测顾客是否可能购买计算机。内部结点用矩形表示,而树叶结点用椭圆表示。为了对未知的样本分类,样本的属性值在决策树上测试。决策树从根到叶结点的一条路径就对应着一条合取规则,因此决策树容易转化成分类规则。 图1 ID3算法: ■ 决策树中每一个非叶结点对应着一个非类别属性,树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。 ■ 每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。 ■ 采用信息增益来选择能够最好地将样本分类的属性。 信息增益基于信息论中熵的概念。ID3总是选择具有最高信息增益(或最大熵压缩)的属性作为当前结点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或“不纯性”。 1.2问题重述 1、目标概念为“寿险促销” 2、计算每个属性的信息增益 3、确定根节点的测试属性 2. Description of the solutions 构造决策树的方法是采用自上而下的递归构造,其思路是: ■ 以代表训练样本的单个结点开始建树(步骤1)。 ■ 如果样本都在同一类,则该结点成为树叶,并用该类标记(步骤2和3)。 ■ 否则,算法使用称为信息增益的机遇熵的度量为启发信息,选择能最好地将样本分类的属性(步骤6)。该属性成为该结点的“测试”或“判定”属性(步骤7)。值得注意的是,在这类算法中,所有的属性都是分类的,即取离散值的。连续值的属性必须离散化。 ■ 对测试属性的每个已知的值,创建一个分支,并据此划分样本(步骤8~10)。 ■ 算法使用同样的过程,递归地形成每个划分上的样本决策树。一旦一个属性出现在一个结点上,就不必考虑该结点的任何后代(步骤13)。 ■ 递归划分步骤,当下列条件之一成立时停止: (a)给定结点的所有样本属于同一类(步骤2和3)。 (b)没有剩余属性可以用来进一步划分样本(步骤4)。在此情况下,采用多数表决(步骤5)。这涉及将给定的结点转换成树叶,并用samples中的多数所在类别标记它。换一种方式,可以存放结点样本的类分布。 (c)分支test_attribute=ai 没有样本。在这种情况下,以samples中的多数类创建一个树叶(步骤12)。 算法 Decision_Tree(samples,attribute_list) 输入 由离散值属性描述的训练样本集samples; 候选属性集合attribute_list。 输出 一棵决策树。 (1) 创建节点N; (2) If samples 都在同一类C中then (3) 返回N作为叶节点,以类C标记; (4) If attribute_list为空then (5) 返回N作为叶节点,以samples 中最普遍的类标记;//多数表决 (6) 选择attribute_list 中具有最高信息增益的属性test_attribute; (7) 以test_attribute 标记节点N; (8) For each test_attribute 的已知值v //划分 samples (9) 由节点N分出一个对应test_attribute=v的分支; (10) 令Sv为 samples中 test_attribute=v 的样本集合;//一个划分块 (11) If Sv为空 then (12) 加上一个叶节点,以samples中最普遍的类标记; (13) Else 加入一个由Decision_Tree(Sv,attribute_list-test_attribute)返回节点值 E(S)=(-9\15)log2(9\15)-(6\15)log2(6\15)=0.971 Values(收入范围)={20-30K,30-40k,40-50K,50-60K} E(S(20-30K))= (-2\4)log2(2\4)- (2\4)log2(2\4)=1 E(S(30-40K))= (-4\5)log2(4\5)- (1\5)log2(1\5)=0.7219 E(S(40-50K))= (

文档评论(0)

鸭哥私房 + 关注
实名认证
内容提供者

知识共享,鸭哥私房

1亿VIP精品文档

相关文档