数据挖掘关联规则挖掘基本概念与Aprior算法..docxVIP

下载本文档

6
0
约3.73千字
约 6页
2017-01-29 发布于重庆
举报
版权申诉

数据挖掘关联规则挖掘基本概念与Aprior算法..docx

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘关联规则挖掘基本概念与Aprior算法.

数据挖掘（1）：关联规则挖掘基本概念与Aprior算法2015/08/28 ·?/category/it-tech/ \o 查看 IT技术中的全部文章IT技术?·?/90121/ \l article-comment1 评论?·?/tag/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/数据挖掘分享到：12/view/47?from=jobboleblog \o Spring MVC起步 \t /90121/_blankSpring MVC起步/view/163?from=jobboleblog \o PHP开发APP接口 \t /90121/_blankPHP开发APP接口/view/438?from=jobboleblog \o PHP7.0新特性 \t /90121/_blankPHP7.0新特性/view/589?from=jobboleblog \o MySQL5.7复制功能实战 \t /90121/_blankMySQL5.7复制功能实战原文出处：?/fengfenggirl/p/associate_apriori.html \t /90121/_blankfengfenggirl（@也爱数据挖掘）?我计划整理数据挖掘的基本概念和算法，包括关联规则挖掘、分类、聚类的常用算法，敬请期待。今天讲的是关联规则挖掘的最基本的知识。关联规则挖掘在电商、零售、大气物理、生物医学已经有了广泛的应用，本篇文章将介绍一些基本知识和Aprori算法。啤酒与尿布的故事已经成为了关联规则挖掘的经典案例，还有人专门出了一本书《啤酒与尿布》，虽然说这个故事是哈弗商学院杜撰出来的，但确实能很好的解释关联规则挖掘的原理。我们这里以一个超市购物篮迷你数据集来解释关联规则挖掘的基本概念：TIDItemsT1{牛奶,面包}T2{面包,尿布,啤酒,鸡蛋}T3{牛奶,尿布,啤酒,可乐}T4{面包,牛奶,尿布,啤酒}T5{面包,牛奶,尿布,可乐}表中的每一行代表一次购买清单（注意你购买十盒牛奶也只计一次，即只记录某个商品的出现与否）。数据记录的所有项的集合称为总项集，上表中的总项集S={牛奶,面包,尿布,啤酒,鸡蛋,可乐}。?一、关联规则、自信度、自持度的定义关联规则就是有关联的规则，形式是这样定义的：两个不相交的非空集合X、Y，如果有X–Y，就说X–Y是一条关联规则。举个例子，在上面的表中，我们发现购买啤酒就一定会购买尿布，{啤酒}–{尿布}就是一条关联规则。关联规则的强度用支持度(support)和自信度(confidence)来描述，支持度的定义：support(X–Y) = |X交Y|/N=集合X与集合Y中的项在一条记录中同时出现的次数/数据记录的个数。例如：support({啤酒}–{尿布}) = 啤酒和尿布同时出现的次数/数据记录数 = 3/5=60%。自信度的定义：confidence(X–Y) = |X交Y|/|X| = 集合X与集合Y中的项在一条记录中同时出现的次数/集合X出现的个数。例如：confidence({啤酒}–{尿布}) = 啤酒和尿布同时出现的次数/啤酒出现的次数=3/3=100%;confidence({尿布}–{啤酒}) = 啤酒和尿布同时出现的次数/尿布出现的次数 = 3/4 = 75%。这里定义的支持度和自信度都是相对的支持度和自信度，不是绝对支持度，绝对支持度abs_support = 数据记录数N*support。支持度和自信度越高，说明规则越强，关联规则挖掘就是挖掘出满足一定强度的规则。?二、关联规则挖掘的定义与步骤关联规则挖掘的定义：给定一个交易数据集T，找出其中所有支持度support = min_support、自信度confidence = min_confidence的关联规则。有一个简单而粗鲁的方法可以找出所需要的规则，那就是穷举项集的所有组合，并测试每个组合是否满足条件，一个元素个数为n的项集的组合个数为2^n-1(除去空集)，所需要的时间复杂度明显为O(2^N)，对于普通的超市，其商品的项集数也在1万以上，用指数时间复杂度的算法不能在可接受的时间内解决问题。怎样快速挖出满足条件的关联规则是关联挖掘的需要解决的主要问题。仔细想一下，我们会发现对于{啤酒–尿布}，{尿布–啤酒}这两个规则的支持度实际上只需要计算{尿布，啤酒}的支持度，即它们交集的支持度。于是我们把关联规则挖掘分两步进行：1）生成频繁项集这一阶段找出所有满足最小支持度的项集，找出的这些项集称为频繁项集。2）生成规则在上一步产生的频繁项集的基础上生成满足最小自信度的规则，产生的规则称为强规则。关联规则挖掘所花费的时间主要是在生成频繁项集上，因为找出的频繁项集往往不会很多，利用频繁项集生成规则也就不会花太多的时