- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于特征类型概率剪枝查询的算法研究
?
?
占美星范少帅周鹏
摘要:針对不确定对象的最近邻反向查询没有考虑多种特征类型而不能满足复杂的应用场景的问题,提出了基于限界剪枝和概率剪枝的多类型概率最近邻反向(Multipletypesprobabilisticnearestneighborreverse,MTPNNR)查询算法。限界剪枝利用最小耗费来修剪不可行解或者非最优解对象;概率剪枝是基于概率分布模型和不确定对象分解的策略,根据概率各个阀值和剪枝的深度来控制需要剪枝的精度。与原始基于定义的算法相比较,MTPNNR查询算法在CPU资源开销方面有比较大的优势,能够完成在较大数据复杂等环境下的查询。基于实验结果显示,MTPNNR算法在离散型的数据集和不确定数据集上有比较好的查询效率。
关键词:不确定对象;最近邻反向查询;概率剪枝;限界剪枝
1绪论
在数据集中,其不确定性是一个比较新的领域,并且一直受到许多关注和研究。Lian等人于2009年首次提出了的LC算法,[1]在LC算法中第一次研究了PRNN问题,对于不确定对象LC算法采用了连续的概率密度函数来表示,该算法采用了数据集中的可能模型,对于数据集的不确定区域划分为球形区域,当查询的结果大于该概率阀值则成为RNNs。
Cheema等人于2010年首次提出了CLWZP算法,[2]但该算法仅仅适合用于离散分布情况,并且采用了基于非平凡修建的规则和概率阀值的修剪算法,这样能够解决高维空间的不确定修剪不确定和收缩修剪区域的问题,比近似抽样算法具有更高效和更具有扩展性。
Emrich等人于2010年对MBRs的空间剪枝方法提出了最优的研究方法,而Bernecker等人于2010年对概率近似性排序研究了相关算法,[4]该算法提出了概率剪枝法来加速排除不确定对象的相似。[5]基于这些前提的研究,Bernecker等人于2011深入研究了PNNR查询,首次提出了概率修剪方法。[6]目前对确定数据集对象上多类型最近邻反向查询有一部分相关研究。[7-12]本文针对多个不同类型的不确定数据集对象,提出了MTPNNR查询的概念,并基于离散型不确定数据集对象模型提出了MTPNNR查询算法。
2相关理论
2.1基本概念
4.2实验
本实验通过与base-MTPNNR算法相比较及逐步调整各输入参数来验证MTPNNR算法的有效性。MTPNNR算法与base-MTPNNR算法相比,对于概率提纯和过滤的上,采用了分层的概率剪枝,这样大大节省了计算所有概率特征线路和所有不确定数据集的实例。
图1比较了MTPNNR算法与base-MTPNNR算法的性能。如图所示,当FT=1时,其算法相差不大,查询时间基本相等。图2比较了基线算法和MTPNNR算法关于Ins查询性能。
图3描述了概率阀值对MTPNNR查询的效率影响。从图中可以看出MTPNNR的执行时间是随着τ值的增大而减小。这是由于较大的τ值会使互斥的最小概率1-τ的值减小,那么当MTPNNR概率阀值增大时,其有哪些信誉好的足球投注网站空间对象相应的随着被修剪的概率1-τ减小而减少,所以在概率剪枝计算时,是很快找到所需的修剪阀值,是的增快了剪枝速度。
图4-4是展示了MTPNNR算法对于Maxdep的查询性能分析的结果,从图中看到,随着Maxdep增大,可以明显的降低提炼步骤的CPU资源消耗。很显然对于Maxdep来说,提炼步骤是主要的资源瓶颈,这是因为对于较小的Maxdep值,每个在用于概率剪枝的不确定数据集对象的子区域集合是很小的,但是其分区很大。
经过本次实验可知,MTPNNR算法的查询性能是与各个输入参数有直接的联动关系,并且实验结果验证了MTPNNR查询算法的有效性,并且能够在较合理的时间段内完成相关查询和剪枝。
5结语
本文提出了多类型概率最近邻反向查询MTPNNR算法。并且针对MTPNNR查询的需求,提出了SL-PFL和LL-PFL的特征概率修剪方法,从而整天提高了算法的空间查询和剪枝效率。其次是运用了限界剪枝方法,分层进行剪枝,最后通过计算概率剪枝的上下界的方法进行概率剪枝,最后通过实验,并且通过调整输入参数使得MTPNNR查询算法达到最优,并且实验结果验证了MTPNNR算法的有效性,能为不确定数据集对象上的多类型概率最近邻反向查询提供有意义的参考。
参考文献:
[1]LianX,ChenL.Efficientprocessingofprobabilisticreversenearestneighborqueriesoveruncertaindata[J].TheVLDBJournal,2009,18(3):787-808.
[2]CheemaMA,LinX,WangW,etal.Probabilis
文档评论(0)