第10章关联规则精读.ppt

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘原理与SPSS Clementine应用宝典 元昌安 主编  邓 松 李文敬 刘海涛 编著 电子工业出版社 10.1 关联规则基本概念 关联规则挖掘(Association Rule Mining)是帮助发现大量数据库中项集之间的关联关系。 10.1.1关联规则定义 设 I = {i1, i2,…, im, }为所有项目的集合,D 为事务数据库事务T 是一个项目子集(T?I)。每一个事务具有唯一的事务标识Tid 。设A 是一个由项目构成的集合,称为项集。事务T 包含项集A,当且仅当A ?T 。 10.1.1关联规则定义 最小支持度minsup 即用户规定的关联规则必须满足的最小支持度,它表示了一组物品集在统计意义上的需满足的最低程度。 最小置信度minconf 即用户规定的关联规则必须满足的最小置信度,它反应了关联规则的最低可靠度。 10.1.2关联规则分类 1.基于规则中处理的变量的类别,可以分为布尔型和数值型关联规则 10.1.2关联规则分类 2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则 例如: IBM台式机→Sony打印机是一个细节数据上的单层关联规则; 台式机→Sony打印机,(此处台式机是IBM台式机的较高层次抽象)。 10.1.2关联规则分类 3.基于规则中涉及到的数据维数,可以分为单维关联规则和多维关联规则 例如: 啤酒→尿布 (单维) 性别=“女”→职业=“秘书” (多维) 关联规则的挖掘就是在事务数据库D中找出具有用户给定的最小支持度minsup和最小置信度minconf的关联规则。 如果项集的支持度超过用户给定的最小支持度阈值(minsup),就称该项集是频繁项集或大项集。 10.2.1关联规则挖掘算法的两个步骤 Step1 根据最小支持度阈值找出数据集D中所有频繁项目集; Step2根据频繁项目集和最小置信度阈值产生所有关联规则。 关联规则挖掘的基本模型 10.2.2基本关联规则算法 ●有哪些信誉好的足球投注网站算法 该类算法只适合于项集数量相对较小的数据集中的关联规则挖掘。 ●分层算法(宽度优先算法) Apriori算法是这类算法的典型代表,该算法需扫描数据集的次数等于最大频繁项目集的项目数。 10.2.2基本关联规则算法 ●深度优先算法 此类算法中必威体育精装版最高效的是J.Han等人提出的FP-growth(Frequent-pattern Growth)算法。 ●划分算法 划分算法的基本思想是将整个数据集划分成可以存放在内存中进行处理的数据块,以节省访问外存的I/0开销。 ●抽样算法 ? 如何计算负边界以找回部分遗漏的频繁项集是抽样算法的关键。 10.2.3复杂关联规则算法 多层次关联规则挖掘一般有两种途径: 一种是把单层次关联规则挖掘算法直接应用于多层次。 另一种是在不同的层次应用不同的支持度阈值和置信度阈值。 10.3 分层有哪些信誉好的足球投注网站算法-Apriori算法 10.3.1 频繁项集的产生 Apriori算法使用层次顺序有哪些信誉好的足球投注网站的循环方法(又称作逐层有哪些信誉好的足球投注网站的迭代方法)产生频繁项集,即用频繁k-项集探索产生(k+1)-项集。首先,找出长度为1的频繁项集,记为 , 用于产生频繁2-项集 的集合,而用于产生频繁3-项集 的,如此循环下去,直到不能找到新的频繁k-项集。找每个 需要扫描数据库一次。 举例: 已知事务数据库D如表10.1所示,最小支持度计数为2,即 minsupport=2/9, 利用Apriori算法挖掘所有满足minsup的频繁集。 (1)第一次扫描,扫描数据库获得每个候选项的计数,从而获得频繁1-项集。如表10-2所示。 (3) L2进行自连接得到C3={{I1, I4, I5},{ I1, I2, I4},{ I1, I3, I4},{ I1, I3, I5},{ I2, I3, I4}, { I3, I4, I5}} 因为{ I1, I2, I4}的子集{ I1, I2,}和 { I1, I3, I4}、{ I1, I3, I5}的子集{ I1, I3,}及 { I2, I3, I4}的子集{ I2, I3}不在L2中 因此,从C3中删除{ I1, I2, I4}、{ I1, I3, I4}、{

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档