数据挖掘导论-第8章-中文.pptVIP

  1. 1、本文档共105页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
需要一个框架来解释任何措施。 例如,如果我们的评价方法的价值,10,是好,公平还是穷? 统计提供了集群有效性的框架 聚类结果越“非典型”,它越可能代表数据中的有效结构 可以将由随机数据或聚类产生的索引的值与聚类结果的值进行比较。 如果索引的值不太可能,则集群结果是有效的 这些方法更复杂,更难理解。 为了比较两个不同的聚类分析集的结果,框架不太必要。 然而,存在两个指数值之间的差是否显着的问题 集群有效性的框架 例子 将随机数据中的SSE与0.005比较 直方图示出了在500个大小为100的随机数据点中的三个簇的SSE,其分布在对于x和y值的0.2-0.8的范围 统计框架SSE 以下两个数据集的K均值聚类的发生率和接近矩阵的相关性。 相关的统计框架 Corr = -0.9235 Corr = -0.5810 Cluster Cohesion: 测量集群中对象的相关程度 示例:SSE Cluster Separation: 衡量群集与其他群集的分离程度或分离程度 示例:平方误差 Cohesion内聚性通过内聚类平方和(SSE) Separation分离通过簇之间的平方和来测量 其中|Ci|是集群 i 的大小 内部方法:凝聚力和分离 内部方法:凝聚力和分离 示例: SSE BSS + WSS = constant 1 2 3 4 5 ? ? ? m1 m2 m K=2 clusters: K=1 cluster: 基于邻近图的方法也可以用于内聚和分离。 簇内聚力是簇内所有链路的权重的总和。 集群分离是集群中的节点和集群外部的节点之间的权重的总和。 内部方法:凝聚力和分离 cohesion separation 轮廓系数结合了内聚和分离的想法,但是对于单个点,以及聚类和聚类 对于个别点, i 计算a = i到其集群中的点的平均距离 计算b = min(i到另一个簇中点的平均距离) 如果a b,(或者如果a≠b,而不是通常情况,则s = b / a-1),则点的轮廓系数由下式给出: s = 1 – a/b if a b, (or s = b/a - 1 if a ? b, not the usual case) 通常在0和1之间。 越接近1越好。 可以计算群集或群集的平均轮廓宽度 内部方法:轮廓系数 群集有效性的外部度量:熵和纯度 “聚类结构的验证是聚类分析中最困难和最令人沮丧的部分。 没有在这个方向的强烈努力,聚类分析将仍然是一个黑色的艺术,只有那些有经验和伟大的勇气的真正信徒。” 聚类数据, Jain和多维数据集的算法 集群有效性的最终评论 分层聚类:MAX 嵌套集群 树状图 1 2 3 4 5 6 1 2 5 3 4 MAX的优点 原始的点 两个集群 不易受噪声和异常值影响 MAX的缺点 原始的点 两个集群 往往打破大集群 偏向球状星团 集群相似性:组平均 两个聚类的接近度是两个聚类中的点之间的成对接近的平均值 需要使用平均连接可扩展性,因为总接近度有利于大集群 1 2 3 4 5 分层聚类:组平均 嵌套集群 树状图 1 2 3 4 5 6 1 2 5 3 4 分层聚类:组平均 单链路和完全链路之间的妥协 优点 不易受噪声和异常值影响 缺点 偏向球状星团 群集相似性:Ward的方法 两个群集的相似性基于当两个群集合并时的平方误差的增加 与组平均值相似,如果点之间的距离是距离平方 不易受噪声和异常值影响 偏向球状星团 均值的分层模拟 可用于初始化K均值 分层聚类:比较 组平均 Ward的方法 1 2 3 4 5 6 1 2 5 3 4 MIN MAX 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 3 4 5 分层聚类:时间和空间要求 O(N2) 空间复杂度,因为它使用邻近矩阵。 N 是点数。 O(N3) 在许多情况下的时间复杂度 有N个步骤,并且在每个步骤,必须更新和有哪些信誉好的足球投注网站大小, N2 ,邻近矩阵 对于一些方法,时间复杂度可以减少到O(N2 log(N) ) 层次聚类:问题和局限性 一旦决定组合两个集群,就不能撤销 没有目标函数被直接最小化 不同的方案具有以下一个或多个问题: 对噪声和异常值的敏感性 难以处理不同大小的簇和凸形 分离大集群 MST:分裂层次聚类 构建MST(最小生成树) 从包含任何点的树开始 在连续的步骤中,寻找最接近的点对(p, q) ,使得一个点(p)在当前树中,而另一个(q)不在 将q添加到树中,并在p和q之间放置一条边 MST:分裂层次聚类 使用MST构建集群的层次结构 DBSCAN DBSCAN是基于密度的算法。 密度=指定半径内的点数(E

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档