- 1、本文档共55页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网格环境下的关规则挖掘算法研究
舢舢『『fff『『ffI川川f『fff舢fffff删
、t 1789513
中 文 摘 要
网格是建立在Internet上的一种新兴的高性能计算平台,能够将各种计算资源整合
起来,转化为一种随处可得的、可靠的、经济的计算能力,具有分布性和异构性、共享
性和动念性、虚拟性等特点。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随
机的数据中,提取隐含在其中的、人们事先不知道的潜在有用的信息或知识的非平凡过
程。关联规则是数据挖掘中的一种主要研究内容,体现了事物与事物之I廿J存在的相互依
存性和关联性,具有广泛的应用价值。本文,采用网格作为分布式计算平台,对关联规
则的分布式挖掘算法进行了研究。其主要的研究成果如下:
第一、网格环境下的频繁模式挖掘算法GridDMF。该算法首先,在各站点分别独
立的挖掘出局部频繁项目集,归并产生候选全局频繁项目集;然后,对候选项集进行剪
枝,并将其广播给各站点;扫描一次数据库统计出各项目出现的次数,求得最终的全局
频繁项集。通过对候选项集的剪枝,减少了各站点fBJ的网络传输量,降低了各站点中项
目集的计算量,从而提高了全局频繁项目集的挖掘效率;最后,以恒星光谱数据作为形
式背景,通过实验验证了此算法的正确性和有效性。
局项目头表;然后,各站点根据这个项目头表的顺序,独立构造局部频繁模式树BFP—tree,
利用合并算法将各局部树合并为一颗全局频繁模式树,并在全局频繁模式树上提取出所
求的频繁项目集,通过对传统频繁模式树的存储结构的改进,减少了树的规模及站点间
的网络通信量,并使树的遍历更加方便有效,提高了合并效率,从而提高了整个频繁项
目集的挖掘效率。最后,采用天体光谱数据作为形式背景,实验验证了该算法的『F确性
和有效性。
关键字:分和式数据挖掘;网格;关联规则;最小支持度;恒星光谱数掘
ABSTRACT
isadistributed basedon a
Grid platform Internet,canintegrate
computing
theresourcesintoakindof
of convert widely
resources,and
varietycomputing
has
andeconomical distributed,
available,reliable computingpower.It
andvirtualandSOon.Data isa
heterogeneous,sharing,dynamic mining
non—trivial of useful
unknown,potential
discoveringimplicit,previously
process
orinformationfrom dataset.
patterns
mainresearchcontentsofdata the
AssociationruleiSoneofthe
文档评论(0)