网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘课件第3章关联规则挖掘理论和算法(new)幻灯片.ppt

数据挖掘课件第3章关联规则挖掘理论和算法(new)幻灯片.ppt

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
用条件模式库建立对应的条件FP-Tree m-条件 模式库 Item 条件模式库 c f:3 a fc:3 b fca:1, f:1, c:1 m fca:2, fcab:1 p fcam:2, cb:1 f:3 c:3 a:3 NULL m-条件FP-Tree Item (fre) f 4 c 4 a 3 b 3 m 3 p 3 L f:4 c:3 a:3 m:2 NULL b:1 p:2 m:1 b:1 c:1 b:1 p:1 T5 Item 条件模式库 条件FP-Tree p {(fcam:2),(cb:1)} {(c:3)}|p m {(fca:2),(fcab:1)} {(f:3,c:3,a:3)}|m b {(fca:1),(f:1),(c:1)} Empty a {fc:3} {(f:3,c:3)}|a c {f:3} {(f:3}|c f Empty Empty m-条件FP-Tree c:3 NULL f:3 c:3 a:3 NULL NULL f:3 c:3 NULL f:3 NULL p-条件FP-Tree c-条件FP-Tree a-条件FP-Tree b-条件FP-Tree NULL f-条件FP-Tree 用条件FP-Tree挖掘频繁项集 m-条件FP-Tree c:3 NULL f:3 c:3 a:3 NULL NULL f:3 c:3 NULL f:3 NULL p-条件FP-Tree c-条件FP-Tree a-条件FP-Tree b-条件FP-Tree NULL f-条件FP-Tree 得到的频繁项目集合{{c,p},{f,c,a,m}} 多层次关联规则挖掘 根据规则中涉及到的层次,多层次关联规则可以分为: 同层关联规则:如果一个关联规则对应的项目是同一个粒度层次,那么它是同层关联规则。如“牛奶?面包”和“羽绒服?酸奶”都是同层关联规则; 关联规则挖掘中的一些更深入的问题 日用品 服装 食品 夏季服装 冬季服装 面包 牛奶 羽绒服 大衣 品牌1 品牌2 鲜奶 酸奶 品牌3 品牌4 层间关联规则:如果在不同的粒度层次上考虑问题,那么可能得到的是层间关联规则。如“夏季服装?酸奶”都是层间关联规则; 多层次关联规则挖掘 多层次关联规则挖掘的度量方法可以沿用 “支持度-可信度”的框架。不过,多层次关联规则挖掘有两种基本的设置支持度的策略: 统一的最小支持度:算法实现容易,而且很容易支持层间的关联规则生成。但是弊端也是显然的: 不同层次可能考虑问题的精度不同、面向的用户群不同 对于一些用户,可能觉得支持度太小,产生了过多不感兴趣的规则。而对于另外的用户来说,又认为支持度太大,有用信息丢失过多。 不同层次使用不同的最小支持度:每个层次都有自己的最小支持度。较低层次的最小支持度相对较小,而较高层次的最小支持度相对较大。这种方法增加了挖掘的灵活性。但是,也留下了许多相关问题需要解决: 首先,不同层次间的支持度应该有所关联,只有正确地刻画这种联系或找到转换方法,才能使生成的关联规则相对客观。 其次,由于具有不同的支持度,层间的关联规则挖掘也是必须解决的问题。例如,有人提出层间关联规则应该根据较低层次的最小支持度来定。 对于多层关联规则挖掘的策略,可灵活掌握: 自上而下方法:先找高层规则,如“冬季服装?牛奶” ,再找其下层规则,如“羽绒服?鲜奶”。如此逐层自上而下挖掘。不同层次的支持度可以一样,也可以根据上层的支持度动态生成下层的支持度。 自下而上方法:先找低层规则,再找其上层规则,如“羽绒服?鲜奶”。不同层次的支持度可以动态生成。 在同一固定层次上挖掘:用户可根据情况,在一个固定层次上挖掘,如果需要查看其他层次的数据,可通过上钻和下钻等操作来获得相应数据。 多维关联规则挖掘 多维关联规则可以有: 维内的关联规则:例如,“年龄(X,20~30)^职业(X,学生)?购买(X,笔记本电脑)”。这里我们就涉及到三个维:年龄、职业、购买。 混合维关联规则:这类规则允许同一个维重复出现。例如,“年龄(X,20~30)? 购买(X,笔记本电脑) ? 购买(X,打印机)”。由于同一个维“购买”在规则中重复出现,因此为挖掘带来难度。但是,这类规则更具有普遍性,具有更好的应用价值,因此近年来得到普遍关注。 数量关联数规则的挖掘 主要解决连续的数值型数据挖掘问题,它与布尔关联规则挖掘不同。主要涉及的关键问题有: 连续数值属性的处理,一般有 对数值属性进行离散化处理,包括: 数值属性的静态离散化; 数值属性的动态离散化; 基于特定的技术进行离散化。 不直接对数值属性离散化,而是采用统计或模糊方法进行处理。 规则的优化 对关系数据库而言,不加限制会产生大量冗余规则,这些规则对于理解和使用都是新的瓶颈。需对其进行优化以找出用户真

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档