- 1、本文档共134页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘:概念与技术 数据挖掘导论 Pang-ning Tan, Michael Stieinbach, and Vipin Kumar著 Pearson Education LTD. 范明 等译 人民邮电出版社 第5章 分类: 其他技术 基于规则的分类 最近邻分类 贝叶斯分类 神经网络 支持向量机 组合方法 不平衡类问题 多类问题 5.1 基于规则的分类器 基于规则的分类器 使用一组 “if…then…” 规则进行分类 规则: (Condition) ? y 其中 Condition 是属性测试的合取 y 是类标号 左部: 规则的前件或前提 右部: 规则的结论 分类规则的例子: (Blood Type=Warm) ? (Lay Eggs=Yes) ? Birds (Taxable Income 50K) ? (Refund=Yes) ? Evade =No 基于规则的分类器: 例 脊椎动物数据集 基于规则的分类器的使用 规则 r 覆盖 实例 x,如果该实例的属性满足规则r的条件 r1:(胎生 = 否)?(飞行动物 = 是)→ 鸟类 r2:(胎生 = 否)?(水生动物 = 是)→ 鱼类 r3:(胎生 = 是)?(体温 = 恒温)→ 哺乳类 r4:(胎生 = 否)?(飞行动物 = 否)→ 爬行类 r5:(水生动物 = 半)→ 两栖类 规则r1覆盖“鹰” = 鸟类 规则r3 覆盖“灰熊” = 哺乳类 规则的质量 用覆盖率和准确率度量 规则的覆盖率(coverage) : 满足规则前件的记录所占的比例 规则的准确率(accuracy) : 在满足规则前件的记录中,满足规则后件的记录所占的比例 规则: (Status=Single) ? No Coverage = 40%, Accuracy = 50% 如何用规则分类 一组规则 r1:(胎生 = 否)?(飞行动物 = 是)→ 鸟类 r2:(胎生 = 否)?(水生动物 = 是)→ 鱼类 r3:(胎生 = 是)?(体温 = 恒温)→ 哺乳类 r4:(胎生 = 否)?(飞行动物 = 否)→ 爬行类 r5:(水生动物 = 半)→ 两栖类 待分类记录 狐猴触发规则 r3, 它分到哺乳类 海龟触发规则r4和 r5----冲突 狗鲨未触发任何规则 规则的分类器的特征 互斥规则集 每个记录最多被一个规则覆盖 如果规则都是相互独立的,分类器包含互斥规则 如果规则集不是互斥的 一个记录可能被多个规则触发 如何处理? 有序规则集 基于规则的序 vs 基于类的序 无序规则集 – 使用投票策略 规则的分类器的特征(续) 穷举规则集 每个记录至少被一个规则覆盖 如果规则集涵盖了属性值的所有可能组合,则规则集具有穷举覆盖 如果规则集不是穷举的 一个记录可能不被任何规则触发 如何处理? 使用缺省类 有序规则集 根据规则优先权将规则排序定秩(rank) 有序规则集又成决策表(decision list) 对记录进行分类时 由被触发的,具有最高秩的规则确定记录的类标号 如果没有规则被触发,则指派到缺省类 规则定序方案 基于规则的序 根据规则的质量排序 基于类的序 属于同一类的规则放在一起 基于类信息(如类的分布、重要性)对每类规则排序 如何建立基于规则的分类器 直接方法: 直接由数据提取规则 例如: RIPPER, CN2, Holte’s 1R 间接方法: 由其他分类模型提取规则 (例如,从决策树、神经网络等). 例如: C4.5rules 直接方法: 顺序覆盖 基本思想 依次对每个类建立一个或多个规则 对第i类建立规则 第i类记录为正例,其余为负例 建立一个第i类的规则r,尽可能地覆盖正例,而不覆盖负例 删除r覆盖的所有记录,在剩余数据集上学习下一个规则,直到所有第i类记录都被删除 直接方法: 顺序覆盖 顺序覆盖(sequential covering)算法 1:令E是训练记录,A是属性—值对的集合{(Aj, vj)} 2:令Yo是类的有序集{y1, y2,..., yk} 3:令R = {}是初始规则列表 4:for 每个类 y∈Yo ? {yk} do 5: while 终止条件不满足 do 6: r ← Learn-One-Rule (E, A, y) 7: 从E中删除被r覆盖的训练记录 8: 追加r到规则列表尾部:R?R ? r 9: end while 10:end for 11:把默认规则{}→yk插入到规则列表R尾部 顺序覆盖: 例 删除实例 为什么要删除实例? 否则, 下一个规则将与前面的规则相同 为什么删除正实例? 确保下一个规则不同 为什么删除负实例? 防止低
您可能关注的文档
- 第4章 牛顿运动定律 单元测(人教版必修1)第4章 牛顿运动定律 单元检测(人教版必修1)第4章 牛顿运动定律 单元检测(人教版必修1)第4章 牛顿运动定律 单元检测(人教版必修1).doc
- 第4章 光电传感器20144章 光电传感器2014第4章 光电传感器2014第4章 光电传感器2014.ppt
- 第4章 调查抽样第4章 调抽样查抽样.ppt
- 第4章 网络营销第4章 网营销络营销.ppt
- 第4章 物流网络规划与设计第4章 物流网络规划与设计2第4章 物流网络规划与设计2第4章 物流网络规划与设计2.ppt
- 第4章 糖代谢.ppt
- 第4章 市场经济运行模式31第4章 市场经济运行模式311第4章 市场经济运行模式311第4章 市场经济运行模式311.ppt
- 第4章 微生物的营养第4章微生物的营养第4章 微生物的营养第4章 微生物的营养.ppt
- 第4章 园艺植物的繁殖技术1第4章 园艺植物的繁殖技术01第4章 园艺植物的繁殖技术01第4章 园艺植物的繁殖技术01.ppt
- 第4章_简单程序第4章_简程序单程序.ppt
- 2024年度民主生活会个人对照检查材料(带头增强党性、严守纪律、砥砺作风方面)+带头增强党性、严守纪律、砥砺作风方面存在的主要问题.doc
- 2024-2025年民主生活会、组织生活会的批评与自我批评+民主生活会会前集中学习研讨体会.doc
- 市委书记在2025年中秋国庆节前廉政谈话会上的讲话在2025年中秋国庆节前廉政谈话.doc
- 2024年度民主生活会存在问题及不足之处+2024年度民主生活会“向下”批评意见清单.doc
- 2篇 2024年民主生活会个人对照检查发言材料(四个带头).doc
- 范文 在2025年春节前廉政谈话暨春节期间重点工作部署会议上的讲话.doc
- 2024-2025年关于意识形态专题党课讲稿、宣讲报告.doc
- 区长、局一把手2024年个人政治画像报领导干部政治画像自评材料.doc
- 理论武装方面存在问题及整改措施+第二批主题教育六个方面问题查摆、原因分析、整改措施.docx
- 2024年度民主生活会领导班子对照检查材料(四个带头)+带头增强党性、严守纪律、砥砺作风方面存在的主要问题.doc
文档评论(0)