数据挖掘导论-第8章-中文.pptVIP

下载本文档

50
0
约8.85千字
约 105页
2018-05-23 发布于河北
举报
版权申诉

数据挖掘导论-第8章-中文.ppt

1、本文档共105页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

需要一个框架来解释任何措施。例如，如果我们的评价方法的价值，10，是好，公平还是穷？统计提供了集群有效性的框架聚类结果越“非典型”，它越可能代表数据中的有效结构可以将由随机数据或聚类产生的索引的值与聚类结果的值进行比较。如果索引的值不太可能，则集群结果是有效的这些方法更复杂，更难理解。为了比较两个不同的聚类分析集的结果，框架不太必要。然而，存在两个指数值之间的差是否显着的问题集群有效性的框架例子将随机数据中的SSE与0.005比较直方图示出了在500个大小为100的随机数据点中的三个簇的SSE，其分布在对于x和y值的0.2-0.8的范围统计框架SSE 以下两个数据集的K均值聚类的发生率和接近矩阵的相关性。相关的统计框架 Corr = -0.9235 Corr = -0.5810 Cluster Cohesion: 测量集群中对象的相关程度示例：SSE Cluster Separation: 衡量群集与其他群集的分离程度或分离程度示例：平方误差 Cohesion内聚性通过内聚类平方和(SSE) Separation分离通过簇之间的平方和来测量其中|Ci|是集群 i 的大小内部方法：凝聚力和分离内部方法：凝聚力和分离示例: SSE BSS + WSS = constant 1 2 3 4 5 ? ? ? m1 m2 m K=2 clusters: K=1 cluster: 基于邻近图的方法也可以用于内聚和分离。簇内聚力是簇内所有链路的权重的总和。集群分离是集群中的节点和集群外部的节点之间的权重的总和。内部方法：凝聚力和分离 cohesion separation 轮廓系数结合了内聚和分离的想法，但是对于单个点，以及聚类和聚类对于个别点， i 计算a = i到其集群中的点的平均距离计算b = min（i到另一个簇中点的平均距离）如果a b，（或者如果a≠b，而不是通常情况，则s = b / a-1），则点的轮廓系数由下式给出： s = 1 – a/b if a b, (or s = b/a - 1 if a ? b, not the usual case) 通常在0和1之间。越接近1越好。可以计算群集或群集的平均轮廓宽度内部方法：轮廓系数群集有效性的外部度量：熵和纯度 “聚类结构的验证是聚类分析中最困难和最令人沮丧的部分。没有在这个方向的强烈努力，聚类分析将仍然是一个黑色的艺术，只有那些有经验和伟大的勇气的真正信徒。” 聚类数据， Jain和多维数据集的算法集群有效性的最终评论分层聚类：MAX 嵌套集群树状图 1 2 3 4 5 6 1 2 5 3 4 MAX的优点原始的点两个集群不易受噪声和异常值影响 MAX的缺点原始的点两个集群往往打破大集群偏向球状星团集群相似性：组平均两个聚类的接近度是两个聚类中的点之间的成对接近的平均值需要使用平均连接可扩展性，因为总接近度有利于大集群 1 2 3 4 5 分层聚类：组平均嵌套集群树状图 1 2 3 4 5 6 1 2 5 3 4 分层聚类：组平均单链路和完全链路之间的妥协优点不易受噪声和异常值影响缺点偏向球状星团群集相似性：Ward的方法两个群集的相似性基于当两个群集合并时的平方误差的增加与组平均值相似，如果点之间的距离是距离平方不易受噪声和异常值影响偏向球状星团均值的分层模拟可用于初始化K均值分层聚类：比较组平均 Ward的方法 1 2 3 4 5 6 1 2 5 3 4 MIN MAX 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 3 4 5 分层聚类：时间和空间要求 O(N2) 空间复杂度，因为它使用邻近矩阵。 N 是点数。 O(N3) 在许多情况下的时间复杂度有N个步骤，并且在每个步骤，必须更新和有哪些信誉好的足球投注网站大小， N2 ，邻近矩阵对于一些方法，时间复杂度可以减少到O(N2 log(N) ) 层次聚类：问题和局限性一旦决定组合两个集群，就不能撤销没有目标函数被直接最小化不同的方案具有以下一个或多个问题：对噪声和异常值的敏感性难以处理不同大小的簇和凸形分离大集群 MST：分裂层次聚类构建MST（最小生成树）从包含任何点的树开始在连续的步骤中，寻找最接近的点对(p, q) ，使得一个点(p)在当前树中，而另一个(q)不在将q添加到树中，并在p和q之间放置一条边 MST：分裂层次聚类使用MST构建集群的层次结构 DBSCAN DBSCAN是基于密度的算法。密度=指定半径内的点数(E