- 1、本文档共110页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘第3章 关联规则挖掘
数据挖掘与模式识别Data Mining and Pattern Recognition ;三、关联规则挖掘
Association Rules Mining;OUTLINE;OUTLINE;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;购物篮关联分析实例图;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;什么是频繁模式分析?;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;例题1 对下表所示的交易数据库记录,请给出项集和其中的事务。;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;例题2 针对例题1中的交易数据库记录,;例题3;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;关联规则的基本概念与基础理论;典型算法
AIS 算法(R. Agrawal等提出)
Apriori算法(及变种AprioriTid和AprioriHybrid))
SETM 算法(M. Houtsma等提出)
DHP 算法(J. Park等提出)
PARTITION 算法(A.Savasere等提出)
Sampling 算法(H.Toivonen提出)
FP-growth 算法(Jiawei Han提出);Apriori算法原理;Apriori算法原理;Apriori算法原理;Apriori算法的主要步骤;Apriori算法原理;Apriori算法原理;发现频繁项集;发现频繁项集;发现频繁项集;(2) FOR k=1, 2, 3, ….
(3) 连接:将Lk进行自身连接生成一个候选频繁k+1项集的集合Ck+1,其连接方法如下:对任意p,q?Lk,若按字典序有 p={p1, p2,…, pk-1, pk },q={p1, p2,…, pk-1, qk}且满足pkqk,则把p, q连接成k+1项集,即将p?q={p1, p2,…, pk-1, pk, qk}作为候选(k+1)-项集Ck+1中的元素。
(4) 剪枝:删除Ck+1中明显的非频繁(k+1)-项集,即当Ck+1中一个候选(k+1)-项集的某个k-项子集不是Lk中的元素时,则将它从Ck+1中删除。
(5) 计算支持数:通过扫描事务数据库T,计算Ck+1中各个元素的支持数。
(6) 求Lk+1:剔除Ck+1中低于最小支持数MinSptN的元素,即得到所有频繁(k+1)-项集构成的集合Lk+1。
(7) 若Lk+1=????则转第(9)步
(8) END FOR
(9) 令L= L1? L2?L3?… ?Lk ,并输出L。;发现频繁项集;产生关联规则;产生关联规则;产生关联规则;产生关联规则;产生关联规则;The Apriori Algorithm—An Example;Apriori算法实例分析;Apriori算法实例分析;解:
1、找出所有的频繁项目集
因支持度min_sup=0.4,事务数据库有5条记录,即最小支持数MinSptN=2。
(1) 求L1:扫描事务数据库,可得候选频繁1-项集及其支持数计算结果。;(2) 第一轮循环:对L1执行算法的(3)至(6)步。
(3) 连接:由L1自身连接生成候选频繁2-项集的集合C2,其结果由下表左侧第1列给出,且已按字典序排序。
{a}与{b}, {c}, {d} , {e}分别连接生成{a,b}, {a,c}, {a,d}和{a,e}。 {b}与 {c}, {d}, {e}分别连接生成{b,c}, {b,d}, {b,d}。 ……;(4) 剪枝:由于I中所有1-项集都是频繁的,因此C2无
需进行剪枝过程。
(5)计算支持数:扫描数据库,计算其支持数。
(6) 求L2:删除支持数小于2的候选2-项集,最终得到所有的频繁2-项集。
(7) L2??;(2)第二轮循环:对L2执行算法的(3)至(6)步获得L3。
SptN({d,e})=1, {b, d, e}、 {c, d, e}被剪枝;(2) 第三轮循环:对L3执行算法的(3)至(6)步获得L4。
(2) 第四轮循环:由于L4仅有一个频繁4-项集,故已不能生成候选频繁5-项集C5,因此(7)L5=?,转算法(9)步。
(9) 输出 L= L1? L2? L3? L4
= {{a}, {b}, {c}, {d}, {e}}
?{{a, b}, {a, c}, {a, d},
您可能关注的文档
最近下载
- 精品解析:2023-2024学年浙江省温州市乐清市统编版六年级上册期末考试语文试卷(解析版).docx VIP
- 浙江省温州市乐清市2023-2024学年三年级上学期语文期末试卷 解析版.docx VIP
- 研讨会(一):战略设计的思维、方法与实践 30Aug2011 LY-BEI-C.pptx VIP
- 彩云追月完整版本.ppt VIP
- 2023年济宁医学院临床医学专业《病理学》科目期末考试卷B.docx VIP
- 《环境监测技术》课程标准.doc VIP
- 浙江省温州市龙湾区2023-2024学年四年级上学期语文期末试卷 解析版.docx VIP
- 东瑞制药搬迁项目环评报告(全本公示版).pdf
- 24DX002-1建筑电气与智能化通用规范图示.pdf VIP
- 五年级语文上册课外必读书《非洲民间故事》练习题及答案全.pdf VIP
文档评论(0)