网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘关联规则.pptVIP

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1关联规那么

AssociationRules

2内容提要引言Apriori算法Frequent-patterntree和FP-growth算法多维关联规那么挖掘相关规那么基于约束的关联规那么挖掘总结

3关联规那么挖掘在事务数据库,关系数据库和其它信息库中的项或对象的集合之间,发现频繁模式,关联,相关,或因果关系的结构.频繁模式:数据库中出现频繁的模式(项集,序列,等等)

4根本概念项集事务关联规那么事务数据集(例如右图)事务标识TID:每一个事务关联着一个标识

5根本概念支持度sD中包含A和B的事务数与总的事务数的比值规那么A?B在数据集D中的支持度为s,其中s表示D中包含A?B(即同时包含A和B)的事务的百分率.

6根本概念支持度sD中包含A和B的事务数与总的事务数的比值规那么A?B在数据集D中的支持度为s,其中s表示D中包含A?B(即同时包含A和B)的事务的百分率.

7根本概念可信度cD中同时包含A和B的事务数与只包含A的事务数的比值规那么A?B在数据集D中的可信度为c,其中c表示D中包含A的事务中也包含B的百分率.即可用条件概率P(B|A)表示.confidence(A?B)=P(B|A)条件概率P(B|A)表示A发生的条件下B也发生的概率.

8关联规那么挖掘两个根本步骤Stepone:找出所有的频繁项集满足最小支持度Steptwo:找出所有的强关联规那么由频繁项集生成关联规那么保存满足最小可信度的规那么

9Apriori性质定理(Apriori性质):假设A是一个频繁项集,那么A的每一个子集都是一个频繁项集.证明:设n为事务数.假设A是l个事务的子集,假设A’?A,那么A’为l’(l’?l)个事务的子集.因此,l/n≥s(最小支持度),l’/n≥s也成立.

10Apriori算法Apriori算法是一种经典的生成布尔型关联规那么的频繁项集挖掘算法.算法名字是缘于算法使用了频繁项集的性质这一先验知识.思想:Apriori使用了一种称作level-wise有哪些信誉好的足球投注网站的迭代方法,其中k-项集被用作寻找(k+1)-项集. 首先,找出频繁1-项集,以L1表示.L1用来寻找L2,即频繁2-项集的集合.L2用来寻找L3,以此类推,直至没有新的频繁k-项集被发现.每个Lk都要求对数据库作一次完全扫描..

11生成频繁项集中心思想:由频繁(k-1)-项集构建候选k-项集方法找到所有的频繁1-项集扩展频繁(k-1)-项集得到候选k-项集剪除不满足最小支持度的候选项集

12Apriori:一种候选项集生成-测试方法Apriori剪枝原理:假设任一项集是不频繁的,那么其超集不应该被生成/测试!方法:由频繁k-项集生成候选(k+1)-项集,并且在DB中测试候选项集性能研究显示了Apriori算法是有效的和可伸缩(scalablility)的.

13TheApriori算法—一个例如DatabaseTDB1stscanC1L1L2C2C22ndscanC3L33rdscan

14频繁模式挖掘的挑战挑战屡次扫描事务数据库巨大数量的候选项集繁重的计算候选项集的支持度工作改进Apriori:大体的思路减少事务数据库的扫描次数缩减候选项集的数量使候选项集的支持度计算更加方便

15内容提要引言Apriori算法Frequent-patterntree和FP-growth算法多维关联规那么挖掘相关规那么基于约束的关联规那么挖掘总结

16频繁模式挖掘的瓶颈屡次扫描数据库是高代价的长模式的挖掘需要屡次扫描数据库以及生成许多的候选项集找出频繁项集i1i2…i100扫描次数:100候选项集的数量:(1001)+(1002)+…+(110000)=2100-1=1.27*1030!瓶颈:候选项集-生成-测试我们能否防止生成候选项集?

17不生成候选项集的频繁模式挖掘利用局部频繁的项由短模式增长为长模式“abc”是一个频繁模式得到所有包含“abc”的事务:DB|abc“d”是DB|abc的一个局部频繁的项?abcd是一个频繁模式

18FPGrowth算法(Han,Pei,Yin2000)Apriori算法的一个有问题的方面是其候选项集的生成指数级增长的来源另一种方法是使用分而治之的策略(divideandconquer)思想:将数据库的信息压缩成一个描述频繁项相关信息的频繁模式树

19利用FP-树进行频繁模式挖掘思想:频繁模式增长递归地增长频繁模式借助模式和数据库划分方法对每个频繁项,构建它的条件模式基,然后构建它的条件FP-树.对每个新

文档评论(0)

147****4268 + 关注
实名认证
文档贡献者

认真 负责 是我的态度

1亿VIP精品文档

相关文档