基于局部敏感哈希的DBSCAN聚类算法研究.pdf

基于局部敏感哈希的DBSCAN聚类算法研究.pdf

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文摘要 摘 要 聚类分析的 目标是在没有先验知识的情况下把数据集分成若干个簇,使得簇内 的数据之间的相似度较高而不同簇之间的数据相似度较低,比如用户可能并不知 道数据集分类的数目或数据的分布情况。作为数据挖掘的一个重要研究分支,聚 类分析被广泛应用于很多研究领域,如多媒体分类、图像分割、生物信息学等。 按照不同的思想聚类算法可以大致分为基于划分的方法、基于层次的方法、基于 密度的方法、基于网格的方法、基于模型的方法、基于图论的方法等。基于密度 的方法因其较好的可解释性和具备发现任意形状簇的能力,一直是热门的研究方 向。DBSCAN 是一种经典的基于密度的聚类算法,受到了许多学者关注。但时间 复杂度问题,特别是有哪些信誉好的足球投注网站近邻的时间花销较大导致在数据集规模较大或维度较高 时算法效率低下一直是 DBSCAN 的主要问题之一。局部敏感哈希算法是解决近邻 检索问题的一种有效手段,它能快速地从大量的高维数据集合中找到某个数据的 近邻点 。针对 DBSCAN 的算法效率问题,本文结合局部敏感哈希,提出了 LSH-DBSCAN 和 LSHSNN-DBSCAN 两个改进算法,分别从 “数量”和 “维度” 两个方向去改进 DBSCAN 的算法效率问题。具体研究成果如下: 1.本文详细阐述了局部敏感哈希(LSH) 的思想,数学原理,局部敏感哈希构造 索引的过程,并结合实验结果分析得到局部敏感哈希索引能够快速找出数据的近 邻点候选集的结论。 2. 从数量约减的角度提出了基于局部敏感哈希的 LSH-DBSCAN 算法改善 DBSCAN 算法效率问题。针对传统 DBSCAN 算法在有哪些信誉好的足球投注网站 epsilon 邻域时因为要对 所有数据都建立距离矩阵从而导致时间开销较大的问题,从 LSH 索引的结构中受 到启发,LSH-DBSCAN 将那些多次被映射到不同哈希表的同一下标下的数据对象 划分为同一个子簇。然后在不同子簇中选出代表点,接着仅在代表点上运行传统 的DBSCAN 算法,最后将与代表点所在子簇的其余点标记为与代表点相同的簇。 因此最后用于聚类的 DBSCAN 算法只需要在代表点集合上运行而不用整个数据 集,避免了有哪些信誉好的足球投注网站 epsilon 邻域时花费大量时间在遍历整个数据集上,减少了不必要 的比较从而提升了效率。从实验结果来分析,提出的 LSH-DBSCAN 算法能在保证 聚类结果的正确率的同时在效率上取得一定的提升,与其它对比算法相比 LSH-DBSCAN 算法在数据量规模较大的时候具有较明显的优势。 3.从维度的角度提出了LSHSNN-DBSCAN 聚类算法改善DBSCAN 算法效率问 题。针对高维数据在计算数据对象相似度的时候时间花销较大,且传统的欧氏距 离在高维空间中缺乏意义的问题,本文提出的LSHSNN-DBSCAN 算法主要的改进 I 重庆大学硕士学位论文 有以下两点:第一,相关研究已经证明利用共享邻居能在高维数据中有效地减弱 “维度灾难”的影响,本文用数据对象的近邻候选集的交集来表示它们之间的相 似度,减弱了欧氏距离在高维空间下缺乏意义的影响,更好地反映出对象之间的 相似度。第二,改进了有哪些信誉好的足球投注网站 epsilon 邻域时的算法,传统的 DBSCAN 算法在查找 邻域的时候是把整个数据集都比较一遍,在本文的算法中查询某个数据点的 epsilon 邻域只需要在这个点的近邻候选集 (即用 LSH 索引有哪些信誉好的足球投注网站出来的近邻集)中 比较就行了,而不是对整个数据集,从而提升了 epsilon 邻域的有哪些信誉好的足球投注网站速度。实验结 果表明 LSHSNN-DBSCAN 算法相比于其它对比算法在更多的数据集上都提升了 聚类正确率和效率,具有一定的优越性。 关键词:聚类;DBSCAN ;局部敏感哈希;效率 II 英文摘要 Abstract The main task of clustering is

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档