- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则挖掘--AP算法
《模式识别与应用》期中设计报告
设计题目:关联规则挖掘实验
班 级:
姓 名:
学 号:
指导教师:
1 实验目的
(1)理解频繁模式挖掘的思想;
(2)理解Apriori挖掘算法的原理;
2 实验步骤
2.1 算法原理
Aprior使用一种称作逐层有哪些信誉好的足球投注网站的迭代方法,K项集用于有哪些信誉好的足球投注网站(K+1)项集。首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合。该集合记作L1。然后,L1用于寻找频繁2项集的集合L2,L2用于寻找L3,如此下去,直到不能再找到频繁K项集。
为提高频繁项集逐层产生的效率,一种称作Apriori的重要性质用于压缩有哪些信誉好的足球投注网站空间。Apriori性质:频繁项集的所有非空子集也必须是频繁的。如何在算法中使用Apriori性质?主要有两步过程组成:连接步和剪枝步。
(1) 连接步:为找L(k),通过将L(k-1)与自身连接产生候选K项集的集合。该候选项集合记作C(K)。设l1和l2是L(k-1)中的项集。记号l(i)[j]表示l(i)中的第j项。执行L(k-1)连接L(k-1),如果它们的前(K-2)项相同的话,其中L(k-1)的元素是可连接的。
(2) 剪枝步:为压缩C(K),可以用Apriori的性质:任何非频繁的(K-1)项集都不是频繁K项集的子集。因此,如果候选K项集的(K-1)项子集不在L(k-1)中,则该候选也不可能是频繁的,从而可以从C(K)中删除。
2.2 算法步骤
算法第一步是简单统计所有含一个元素的项集出现的频率,来决定最大的一维项目
集,在第k步,分两个阶段,首先用一函数sc_candidate,通过第(k-1)步中生成最大项
目集来生成候选项目集,然后搜素数据库计算候选项目集的支持度。
Apriori算法描述如下:
={candidate 1-itemset};
={c|c.countminsupport};
For (k=2,,k++)
=sc_candidate();
for all transaction tD
=count_support(,t)
for all candidates c
c.count=c.count + 1;
next
={c|c.countminsupport};
Next
Resultset=resultset
其中,D表示数据库;minsupport表示给定的最小支持度;resultset表示所有最大项目
集。k-itemset表示k维项目集;:具有最小支持度的最大k-itemset;:候选的k-
itemset(潜在最大项目集)
2.3模型的建立和求解
模型一:基于Apriori算法的关联规则挖掘模型
模型的准备
设: I={ i1,i2......,im }是所有项目的集合. D是所有事务的集合(即数据库), 每个事务T是一些项目的集合, T包含在D中, 每个事务可以用唯一的标识符TID来标识.设X为某些项目的集合,如果X包含在T中,则称事务T包含X,关联规则则表示为如下形式(X包含在T)=(Y包含在T)的蕴涵式,这里X包含在I中, Y包含在I中,并且X∧Y=Φ.其意义在于一个事务中某些项的出现,可推导出另一些项在同一事务中也出现(为简单化,将(X包含在T)=(Y包含在T)表示为X=Y,这里,‘=’ 称为‘关联’操作,X称为关联规则的先决条件,Y称为关联规则的结果).
事务数据库D中的规则X=Y是由支持度s(support)和置信度c(confidence)约束,置信度表示规则的强度, 支持度表示在规则中出现的频度。数据项集X的支持度s(X)是D中包含X的事务数量与D的总事务数量之比, 但为下文便于叙述, 数据项集X的支持度是用数据库D中包含X的数量来表示;
规则X=Y的支持度s定义为: 在D中包含X∪Y的事务所占比例为s%, 表示同时包含X和Y的事务数量与D的总事务量之比。用该项集出现的次数除以TID总数即可得到,用如下公式表示:
Support(X)=Count(X)/Count(TID)
规则X=Y的置信度c定义为: 在D中,c%的事务包含X的同时也包含Y, 表示D中包含X的事务中有多大可能性包含Y. 依据所求的频繁项集,及所求得的支持度,运用如下公式求解:
Confidence(X=Y)=Support(X∪Y)/Support(X)
最小支持度阈值minsupport表示数据项集在统计意义上的最低主要性. 最小置信度阈值mincontinence表示规则的最低可靠
您可能关注的文档
- 合作学习是一种学习的方式.doc
- 台骀雕塑招标方案.doc
- 学科渗透法制教育心得体会校长 2.doc
- 学生会干部量化考核方案.doc
- 发电机转子接地保护应用ok.doc
- 学校综合考核奖励实施方案.doc
- 反腐倡廉建设创新工作汇报.doc
- 双课培训学习心得.doc
- 学校安全事故应急预1.doc
- 双桥中心学校2013年教育统计报表分析报告.doc
- 中国烟草总公司河南省公司人员违纪违法行为处理规定,心得体会.pdf
- 2023-2028年中国四川省温泉旅游行业市场全景评估及投资前景展望报告.docx
- 不停航施工实施细则.pdf
- 2021-2026年中国复方茶碱麻黄碱片行业投资分析及发展战略咨询报告.docx
- 2025年中国银行耗材行业投资研究分析及发展前景预测报告.docx
- 2023年公路职工的个人述职报告范文(通用5篇).pdf
- XX县2023年旅游市场秩序综合整治工作方案.pdf
- 中国血浆分离器行业发展运行现状及投资潜力预测报告.docx
- 2022-2023学年七年级地理上学期期末测试卷(含答案).pdf
- 2024-2030年中国血液处理设备行业市场调查研究及投资前景展望报告.docx
文档评论(0)