- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
不均匀模糊空间对象的分层次co―location模式挖掘方法.doc
不均匀模糊空间对象的分层次co―location模式挖掘方法
摘 要:针对现有的co-location模式挖掘算法无法有效处理不均匀分布空间对象的问题,提出一种不均匀模糊空间对象的分层次co-location模式挖掘方法。首先提出一种不均匀数据集的生成方法; 然后对不均匀分布的数据集进行层次划分,使每个区域具有均匀的空间分布;再基于改进的PO_RI_PC算法对划分后的模糊对象进行空间数据挖掘。该方法基于距离变化系数构建每个子区域的邻域关系图,进而完成区域融合,实现co-location模式挖掘。实验结果表明,与传统方法相比,所提方法的执行效率更高,随实例个数和不均匀度的变化获得的co-location集个数更多,同比情况下平均提高约25%,获得了更精确的挖掘结果。
关键词:模糊对象;co-location模式挖掘;隶属度;不均匀度;距离变化系数
中图分类号:TP311
文献标志码:A
文章编号:1001-9081(2016)11-3113-05
0 引言
空间co-location模式是指一组空间对象的子集,其实例频繁地关联[1]。例如,鲜红斑痣通常与胎儿发育不良有关;植物学家们发现生石花有90%会长在岩床缝隙、石砾之中[2-4]。现实世界中,模糊对象无处不在,比如“红色的枣子”“高个子的人”“蓝色的天空”等,对模糊对象的空间co-location模式挖掘就是发现一系列在空间上频繁并置的模糊对象特征集[1]。
目前,许多学者对空间co-location模式挖掘进行了深入研究并提出大量算法。例如,针对确定数据,Shekhar等[2]提出一种用户指定的社区概念以及挖掘频繁模式的空间坐标模式;Huang等[3-4]根据无支持阈值的可信co-location规则挖掘方法,提出了最大参与度系数以及join_based算法,采用邻域和参与系数进行co-location模式挖掘;Yoo等[5-6]改进了join_based算法,分别提出partial_join算法[5]和join_less算法[6],在不丢失co-location实例的同时有效降低了挖掘的时间代价。针对不确定数据,陆叶等[7]提出了不确定数据集上的Ujoin_based算法;Zheng等[8]研究了模糊对象的K最近邻(K-Nearest Neighbor, KNN)查找问题,提出了AKNN(Ad Hoc KNN)和RKNN(Range KNN)方法;Wang等[9]研究了从区间数据表示的不确定对象中挖掘co-location模式。针对模糊对象的研究也越来越多,欧阳志平等[10]改进了join_based算法,提出了关于模糊对象空间co-location模式挖掘的剪枝对象―减少实例间连接―优化剪枝步(PO_RI_PC)算法,后续又研究了实例位置模糊的空间co-location模式挖掘方法[10];Qian等[11]研究了基于kNNG(k-Nearest Neighbor Graph)方法的区域co-location模式挖掘方法;温佛生等[12]提出了基于模糊对象的极大co-location挖掘算法等。
虽然空间co-location模式挖掘算法很多,但针对不均匀模糊对象的研究并不多见。而在许多涉及数据分类的应用中,如医疗诊断、文本分类、天气预报等,经常会遇到数据集分布不均匀的情况[13-15]。上述研究均未考虑不均匀分布模糊对象的空间频繁并置现象,将空间数据集看作是均匀的,如PO_RI_PC算法[1]等,利用单一的距离参数进行空间数据的挖掘。如图1所示,数据集大致均匀分布,使用一个恰当的距离参数即可挖掘出空间co-location模式[1]。
但在实际情况中,常出现如图2所示的不均匀分布点集,选择不同的距离参数会挖掘出不同的空间co-location模式。图2为选择距离参数1挖掘出的co-location模式,若使用距离参数2挖掘出的结果会更加准确。显然,不适当的距离参数会导致co-location模式的遗漏,进而使整个co-location模式的挖掘结果不准确。
为避免这种情况的出现,与针对均匀分布模糊对象的挖掘算法PO_RI_PC对比,本文提出一种分层次的空间数据模式挖掘方法,以实现对不均匀分布模糊对象的co-location模式挖掘。
1 相关问题及定义
本文对模糊对象的处理源于模糊集理论,将模糊逻辑引入数据挖掘分类系统,允许定义“模糊”域值或边界。模糊逻辑使用0.0和1.0之间的数值表示一个实例属于某个类别的可能性,而不是采用类或集合的精确判断[16]。模糊逻辑提供了在高抽象层处理的便利。
以下对模糊对象、邻域关系图、距离变化系数、区域量级、不均匀度以及距离参数进行定义。
文档评论(0)