- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
希望对大家有所帮助,多谢您的浏览!
关联规则挖掘算法研究报告
摘要:数据挖掘是一个多学科交叉融合而形成的新兴的学科,它利用各种分析工
具在海量数据中发现模型和数据间的关系。而在大规模事务数据库中,挖掘关联
规则是数据挖掘领域的一个非常重要的研究课题。文中介绍了关联规则挖掘的研
究情况,描述了经典Apriori算法的实现,并对该算法进行了分析和评价,指出
了其不足和原因。并对FP树挖掘最大频繁项集的算法描述,并得到结论:数据
库中潜在的最大频繁模式越多,运行时间越长。
关键词:数据挖掘;关联规则;频繁项集
简单地说,数据挖掘(datamining)是揭示存在于数据里的模式及数据间的
关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据库管理,人工
智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点看,
它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。数据挖掘也就
是通过某种方法,利用历史数据,在条件集合和结果集合之间建立一个致信度比
较高的模型。而关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系,
它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则挖
掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商
品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商
品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用
户进行分类。
1关联规则的意义
世间万物的事情发生多多少少会有一些关联。一件事情的发生,很可能是
1/8
希望对大家有所帮助,多谢您的浏览!
也会引起另外一件事情的发生。或者说,这两件事情很多时候很大程度上
会一起发生的。那么人们通过发现这个关联的规则,可以由一件事情的发生来,
来推测另外一件事情的发生,从而更好地了解和掌握事物的发展,动向等等。这
就是数据挖掘中,寻找关联规则的基本意义。
数据挖掘技术中的关联规则挖掘是通过计算机自动从一大对真实数据中发
现这样的关联规则出来。对于计算机而言,它需要知道所有的事情发生情况,并
且把相应的事情合并成一个事务,通过对各个事务的扫描,来确定事情的关联规
则。
2关联规则的基本概念
设I={i1,i2,…,im}是项的集合,其中的元素称为项(item)。记D为事
务(transaction)T的集合,这里事务T是项的集合,并且TI。对应每一个事
务有唯一的标识,如事务号,记作TID。设X是一个I中项的集合,如果XT,
那么称事务T包含X。
[1]
一个关联规则是形如XY的蕴涵式,这里XI,YI,并且XY=。规
则XY在事务数据库D中的支持度(support)是事务集中包含X和Y的事务数
与所有事务数之比,记为support(XY),即support(XY)=P(XY),规则
XY在事务集中的可信度(confidence)是指包含X和Y的事务数与包含X的
交易数之比,记为confidence(XY),即confidence(XY)=P(X|Y),给定一个
事务集D,挖掘关联规则问题就是寻找支持度和可信度分别大于用户给定的最小
支持度(minsupp)和最小可信度(minconf)的关联规则。
3Apriori算法介绍
3.1关联规则的挖掘可以分成两个步骤:
a.根据最小的支持度,在大量事务寻找高频率出现的频繁项集(Itemset)。
b.根据最小的置信度,找到的频繁项集产生关联规则。
其中第二个步骤比较容易,一般经过第一步的筛选后的频繁项集都不会很多,通
过子集产生法就可以产生关联规则。第一个步骤是需要在大量的事务数据集中寻
找高频率出现的项集Itemset,所以就需要一个比较高效的有哪些信誉好的足球投注网站查找方法。
RakeshAgrawal等在1993年提出了第一步搜
您可能关注的文档
- 拉杆钢结构雨篷计算程序EXL.pdf
- 拔叉零件的知识.pdf
- 招聘工作数据分析表.pdf
- 招标资格预审文件.pdf
- 指数平滑法预测产品销量.pdf
- 拓普康古建筑实时全自动化变形跟踪解决方案2.pdf
- 按客户名称统计各产品订购数量.pdf
- 招投标与合同管理案例分析题Word.pdf
- 拜访客户最佳时间.pdf
- 掘进工作面检查项目.pdf
- Unit4AtthefarmPartALet'stalkLet'slearnLet'splay(课件)-人教PEP版英语四年级下册.pptx
- Unit4SectionB1a_1e课件人教版英语八年级下册.pptx
- Unit4HealthyfoodBLet'slearn(课件)-人教PEP版(级下册.pptx
- 人教版八年级数学下册2.pptx
- 为鸟儿安个家(教学课件)-五年级综合实践活动下册(山东科学技术出版社).pptx
- Unit5SectionB1a-1d课件人教版英语八年级下册.pptx
- Module4Unit10MygardenPeriod1(课件)-沪教牛津版(深圳用)英语四年级下册(4).pptx
- 河北省保定市2024-2025学年高一上学期12月月考语文试题2.docx
- 安徽省安庆市高三二模语文试题2.docx
- XX公司合并和获得的文化整合的重要.ppt
最近下载
- 2025年郑州铁路职业技术学院单招职业适应性测试题库精选答案.docx VIP
- 华南农业大学作物育种总论试题及答案.doc VIP
- 深入贯彻中央八项规定精神学习教育党课(ppt).pptx VIP
- 整形外科学(中级324)基础知识卫生专业技术资格考试试题及解答参考(2025年).pdf VIP
- 四川省成都市青羊区2024年四年级数学第二学期期末调研试题含解析.pdf VIP
- 2024版《供电营业规则》学习考试题库资料500题(含答案).pdf
- 设立再生资源回收利用公司商业计划书.pptx VIP
- 九年级数学《锐角三角函数》复习教学设计.pdf VIP
- 寒旱区多年生豆禾混播放牧型草地建植技术规程.pdf
- 2025年哈尔滨医科大学附属第六医院(利民中心 医院)公开招聘工作人员180人笔试备考题库及答案解析.docx
文档评论(0)