- 1、本文档共65页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
处理缺失属性值缺失值对决策树构造产生影响影响不纯度如何计算影响带有缺失值的记录如何分配到子结点中影响一个测试实例如何被分类计算不纯度根据偿还借款属性分裂偿还借款偿还借款缺失值分裂前分配记录偿还借款偿还借款偿还借款的概率为偿还借款的概率为将该记录分配到左子结点的权重概率为分配到右子结点的权重概率为对实例进行分类偿还借款已婚单身离异合计新纪录婚否已婚的概率为婚否单身离异的概率为对应于问答计算指数的例子基于指数的分裂在等算法中使用当一个结点分裂为个部分时该分裂的质量定义为其中是子结点中的记录数目是结点
处理缺失属性值 缺失值对决策树构造产生影响: 影响不纯度如何计算 影响带有缺失值的记录如何分配到子结点中 影响一个测试实例如何被分类 计算不纯度 根据偿还借款属性分裂: Entropy(偿还借款=Yes) = 0 Entropy(偿还借款=No) = -(2/6)log(2/6) – (4/6)log(4/6) = 0.9183 Entropy(Children) = 0.3 (0) + 0.6 (0.9183) = 0.551 Gain = 0.9 ? (0.8813 – 0.551) = 0.3303 缺失值 分裂前: Entropy(Parent) = -0.3 log(0.3)-(0.7)log(0.7) = 0.8813 分配记录 偿还 借款 Yes No 偿还 借款 Yes No 偿还借款=Yes 的概率 为 3/9 偿还借款=No 的概率 为 6/9 将该记录分配到左子结点的权重(概率)为 3/9,分配到右子结点的权重(概率)为 6/9 对实例进行分类 偿还借款 MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced 80K 80K 已婚 单身 离异 合计 Class=No 3 1 0 4 Class=Yes 6/9 1 1 2.67 Total 3.67 2 1 6.67 新纪录: 婚否 = 已婚 的概率为 3.67/6.67 婚否 ={单身,离异} 的概率为 3/6.67 对应于Refund=No 问 答 * * 计算GINI指数的例子 P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 Gini = 1 – P(C1)2 – P(C2)2 = 1 – 0 – 1 = 0 P(C1) = 1/6 P(C2) = 5/6 Gini = 1 – (1/6)2 – (5/6)2 = 0.278 P(C1) = 2/6 P(C2) = 4/6 Gini = 1 – (2/6)2 – (4/6)2 = 0.444 基于GINI指数的分裂 在CART, SLIQ, SPRINT等算法中使用 当一个结点p分裂为k个部分时,该分裂的质量定义为: 其中, ni 是子结点i中的记录数目, n 是结点p中的记录数目. 二元属性: 计算GINI指数 分裂为两个部分,假设有两种方法将数据划分成较小的子集 B? Yes No Node N1 Node N2 A属性划分: Gini(N1) = 1 – (4/7)2 – (3/7)2 = 0.49 Gini(N2) = 1 – (2/5)2 – (3/5)2 = 0.48 Gini(Children) = 7/12 * 0.49 + 5/12 * 0.48= 0.49 N1 N2 C1 1 5 C2 4 2 Gini=0.371 A? Yes No Node N1 Node N2 B属性划分 B属性划分: Gini(N1) = 1 – (1/5)2 – (4/5)2 = 0.32 Gini(N2) = 1 – (5/7)2 – (2/7)2 = 0.41 Gini(Children) = 5/12 * 0.32 + 7/12 * 0.41= 0.371 结论:属性B具有更小的Gini指标,比属性A更可取。 N1 N2 C1 4 2 C2 3 3 Gini=0.49 A属性划分 分类属性: 计算Gini指数 对于每个值,统计每类记录的个数 可以使用计数矩阵来辅助理解 多路分裂 二路分裂 (需要确定最佳方案) 连续属性: 计算Gini指数 选取一个值,做二元决策 对于分裂值,有多种选择 取决于不同的值的个数 穷举法:将N个记录中所有的属性值都作为候选划分点 每个分裂值对应了一个计数矩阵 对于值v,统计每个类在两个部分A v 和 A ? v的计数 选择最佳v的直观方法 对于每个值v,扫描一次数据库,构造计数矩阵,计算Gini指数 计算代价昂贵,效率太低,每个候选划分点计算Gini指标需要O(N)次操作,N个候选,总的计算复杂度为O(N2) 连续属性: 计算Gini指数... 较高效的计算方法: 对于每个属性, 将属性值排序,从两个相邻的排过序的属性值中选择中间值作为候选划分 依次扫描这些值,每次扫描一个值后, 更新计数矩阵,并计算Gini指数 选择对应了最小的Gini指数的分裂位置 分裂位置 排序后的属性值 进一步优化该过程 仅考虑位于具有不同类标号的两个相邻记录之间的候选划分点 基于信息论的分裂准则 给定结点t
您可能关注的文档
- 基于相关向量机的中长期径流预报模型研究-大连理工大学学报.pdf
- 基于信息融合的多智能体混合体系智能车辆导航-农业机械学报.pdf
- 基于形态优化滤波和最小二乘支持向量机的轴承故障分析-中国测试.pdf
- 基于序列标注模型的情绪原因识别方法-core.pdf
- 基于旬法信息的微博情绪识别方法研究-计算机科学.pdf
- 基于压缩感知理论的频偏估计算法-journalofnortheasternuniversity.pdf
- 基于遥感光谱和空间变量随机森林的黄河三角洲刺槐-遥感技术与应用.pdf
- 基于遗传模拟退火算法的绝对值方程求解-郑州轻工业学院.pdf
- 基于遗传算法的曲面拟合参数辨识-武汉大学学报·信息科学版.pdf
- 基于异源多时相遥感数据提取灌区作物种植结构-ingentaconnect.pdf
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
最近下载
- DBJ50T-136-2012建筑地基基础检测技术规范(高清版).pdf
- 【中职-情景模拟】24.学生、家长不认同劳动教育,对卫生值日、劳动实践等有抵触心理.docx VIP
- 小学三年级《生命安全教育》全册教案(湖北版).pdf VIP
- 《Unit 1 Teenage Life Reading for Writing》教案(附导学案)1.docx
- 桩基础土方开挖施工方案.docx VIP
- 恶性骨肿瘤患者的护理ppt课件.pptx
- 苏教版四年级上册同步奥数培优 第十六讲 等量代换.pdf VIP
- 2024年中国兵器工业集团招聘3774人公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版.docx VIP
- 老年冠心病慢病管理指南.pptx VIP
- 人教版普通高中地理选择性必修2区域发展.pdf
文档评论(0)