关联规则挖掘Apriori算法的一种改进.doc

下载文档

18
0
约2.85千字
约 6页
2017-05-24 发布于福建
举报
版权申诉
保障服务

关联规则挖掘Apriori算法的一种改进.doc

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关联规则挖掘Apriori算法的一种改进

关联规则挖掘Apriori算法的一种改进　　[摘要]Apriori算法是关联规则挖掘中的经典算法，但在算法执行中，会多次扫描数据库并产生大量的候选集，导致算法效率降低。在分析Apriori算法的基础上，利用任何一个频繁k+1项集一定可以表示成一个频繁k项集与一个频繁1项集的交集这一性质，产生频繁项集，并减少扫描数据库的次数，提高算法的效率，实验结果也表明，改进算法比Apriori算法有更好的性能 [关键词]Apriori算法；关联规则；数据挖掘 [DOI]10.13939/j.cnki.zgsc.2016.36.086 1 引言随着计算机技术与数据库技术的迅猛发展，如何从海量的数据中寻找出有效的信息成为了数据挖掘问题中的一项重要研究内容。数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。[1]挖掘关联规则问题可以分解为以下两个子问题：[2]①找出所有频繁项集。这些项集出现的频繁性至少和预定义的最小支持计数一样。②根据定义，由频繁项集产生强关联规则必须满足最小支持度和最小置信度 R.Agrawal于1994年首先提出了挖掘关联规则的Apriori算法[3]，其基本思想是重复扫描数据库，根据频繁项集的超集才可能是频繁项集这一原理，由长度为k的频繁项集进行迭代计算产生长度为k+1的候选集，再对数据库进行扫描判断其是否为频繁项集很多文献基于Apriori算法提出改进算法，杨志刚[4]等人提出了基于压缩事务矩阵相乘的改进算法，焦学磊[5]等人提出了基于矩阵的频繁项集发现算法，将数据库信息全部以矩阵表示，该方法仅需要对数据库进行一次扫描，有效地减少了算法执行的时间，Najadat[6]等人对Apriori算法的不足之处进行了讨论，并优化了Apriori算法在剪枝过程中计算量大的问题，崔贯勋[7]等人提出对数据库进行一定的处理，使其成为水平结构再进行计算，但该方法需要占用大量的空间，也使得该方法的提高程度受到了限制 2 改进的Apriori算法 2.1 算法的相关概念频繁项集具有如下几个性质：[8] 性质1 频繁项集的所有非空子集都是频繁项集，非频繁项集的超集都是非频繁项集性质2 如果频繁k项集还能产生频繁k+1项集，则频繁k项集中的项数必须大于k 2.2 算法思想 Apriori算法将关联规则的发现过程分成了两个步骤：（1）找出所有支持度高于用户设定的最小支持度的项集，即发现所有的频繁项集（2）通过发现的频繁项集构造出满足用户最小置信度的规则。[9] 但是在执行过程中Apriori算法需要频繁地扫描数据库，这一行为会造成过重的I/O负担[10]，改进算法将通过减少数据库扫描次数的方式来减轻I/O负担 2.3 实例分析依据上述改进的算法，以一个实例对该算法进行分析。表1为事务数据库，设最小支持度为20%，则最小支持度计数等于2 2.4 算法实验与分析为了验证本文改进算法的有效性，将其与Apriori经典算法进行实验对比，测试的数据库选用本校对高校教师的一次调查问卷，数据库中共有1681条记录，数据库中部分记录如表3所示。因为在本次调查中，教师只需要在24个选项中，选出最符合自己意愿的某几个选项，因此数据的存储采用简单二维表进行记录，用以节省存储空间采用的实验环境：CPU为Intel Core I7 2.60GHz，内存8GB，操作系统为WIN10 专业版，数据库采用SQL2014，算法采用C#语言编写并在VS2012环境下编译，下图是改进算法与Apriori经典算法在不同支持度下执行时间对比不同支持度下两种算法的执行时间对比改进算法在效率上优于Apriori算法，并且在最小支持度较小时，改进算法的执行时间相对于Apriori算法具有明显优势，但是随着最小支持度的增加，两种算法的执行时间均大幅减少，Apriori算法与改进算法的执行时间开销非常接近，这是因为随着最小支持度的增加，迭代次数减少，运算过程中产生的频繁项集的数量均大幅度减少，使得算法的执行时间减少 3 结论与思考本文提出的算法与Apriori算法相比减少了I/O次数，在改进算法中，是以项集中包含元素的数量与最小支持度计数对比判断其是否为频繁项集，不需要对数据库进行多次扫描，而Apriori算法在每次进行剪枝时，需要对数据库进行扫描才能判断生成的项集是否为频繁项集，改进算法是从这一点出发，进行改进从而提高算法的执行效率，减少算法的执行时间。虽然改进算法虽然减少了I/O次数，提高了算法的执行效率，但是算法在执行过程中，需要保存大量的数据，因而需要占用较多的内存空间，因此如何对数据量较大的数