网站大量收购独家精品文档,联系QQ:2885784924

附加问题与算法.pptVIP

  1. 1、本文档共109页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于图的聚类01最小生成树聚类03Chameleon05基于SNN密度的聚类02OPOSSUM04Jarvis-Patrick聚类算法最小生成树聚类(minimumspanningtree,MST)最小生成树聚类可以看作用稀疏化找出簇的方法最小生成树聚类是一种基于分裂的层次聚类算法Until只剩下单个簇断开对应于最大相异度的边,创建一个新的簇Repeat计算相异度图的最小生成树EDCBAF基于图的聚类最小生成树聚类OPOSSUMChameleonJarvis-Patrick聚类算法基于SNN密度的聚类OPOSSUM:使用METIS的稀疏相似度最优划分使用METIS,将相似度图划分成k个不同的分支(簇)04计算稀疏化的相似度图03OPOSSUM(OptimalPartitioningofSparseSimilaritiesUsingMETIS)是一种专门为诸如文档或购物篮数据等稀疏、高维数据设计的聚类技术。与MST一样,它基于邻近度图的稀疏化进行聚类。然而,OPOSSUM使用METIS算法,该算法是专门为划分图设计的。01OPOSSUM聚类算法02所使用的相似性度量是适合于稀疏、高维数据的度量,如扩充的Jaccard度量或余弦度量。METIS图划分程序将稀疏图划分为k个不同的分支,其中k是用户指定的参数,旨在(1)最小化分支之间边的权值(2)实现平衡约束。OPOSSUM使用如下两种约束中的一种:(1)每个簇中的对象个数必须粗略相等,或(2)属性值的和必须粗略相等。优点与缺点OPOSSUM简单、速度快。01它将数据划分大小粗略相等的簇。根据聚类的目标这可能看作优点或缺点。02基于图的聚类最小生成树聚类OPOSSUMChameleonJarvis-Patrick聚类算法基于SNN密度的聚类这种层次聚类使用接近性和互连性概念以及簇的局部建模。关键思想是:仅当合并后的结果簇类似于原来的两个簇时,这两个簇才应当合并。02Chameleon是一种凝聚聚类技术,它解决前两段提到的问题。它将数据的初始划分与一种新颖的层次聚类方案相结合。01确定合并哪些簇相对接近度(relativecloseness,RC):是被簇的内部接近度规范化的两个簇的绝对接近度。两个簇合并,仅当结果簇中的点之间的接近程度几乎与原来的每个簇一样。01mi和mj分别是簇ci和cj的大小。SEC(ci,cj)是连接簇ci和cj的边的平均值;SEC(ci)是二分簇ci的边的平均权值。021相对互连度(relativeinterconnectivity,RI):是被簇的内部互连度规范化的两个簇的绝对互连度。如果结果簇中的点之间的连接几乎与原来的每个簇一样强,两个簇合并。2其中,EC(Ci,Cj)是连接簇Ci和Cj的边之和;EC(Ci)是二分簇Ci的割边的最小和;EC(Cj)是二分簇Cj的割边的最小和。3RI和RC可以用多种不同的方法组合,产生自相似性的总量。Chameleon使用的方法是合并最大化RI(Ci,Cj)*RC(Ci,Cj)a簇对。其中a值大于1.LimitationsofCurrentMergingSchemesRelativeClosenessschemeswillmerge(a)and(b)Relativeinterconnectivityschemeswillmerge(c)and(d)构造k-最近邻图使用多层图划分算法划分图Repeat合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇Until不再有可以合并的簇优点与局限性Chameleon能够有效地聚类空间数据,即便存在噪声和离群点,并且簇具有不同的形状、大小和密度。01Chameleon假定由稀疏化和图划分过程产生的对象组群是子簇,即一个划分中的大部分点属于同一个真正的簇。如果不是,则凝聚层次聚类将混合这些错误,因为它绝对不可能再将已经错误地放到一起的对象分开。这样,当划分过程未产生子簇时,chameleon就有问题,对于高维数据,常常出现这种情况。02共享最近邻相似性SNN(sharednearestneighbor)相似度计算:1找出所有点的k-近邻2If两个点x和y不是相互在对方的k-最近邻中then3similarity(x,y)?04Else5similarity(x,y)?共享的近邻个数6Endif7算法估计数据分布:确定分布:一般假设数据取自高斯混合分布。然后,对分

文档评论(0)

135****1732 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档