网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘概念与技术原书第2版第7章聚类分析析.pptVIP

数据挖掘概念与技术原书第2版第7章聚类分析析.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘概念与技术原书第2版第7章聚类分析析ppt课件

把对象空间量化为有限数目的单元,形成一个网格结构。所有的聚类都在这个网格结构上进行。 优点:处理数度快(因为处理时间独立于数据对象数目,只与量化空间中每一维的单元数目有关) 为每个簇假定一个模型,寻找数据对给定模型的最佳拟合。 一个基于模型的算法可能通过构建反映数据点空间分布的密度函数来定位聚类 这种方法同时也用于自动的决定数据集中聚类的数目 通过统计学的方法,考虑噪声和离群点,从而产生健壮的聚类方法 给定n个对象的数据集,以及要生成的簇的数目k,划分算法将对象组织为k个划分(k n)每个划分代表一个簇 通常通过计算对象间距离进行划分 典型的划分方法 k均值 k中心点 以上两种方法的变种 簇的相似度是关于簇中对象的均值度量,可以看作簇的质心(centroid) k均值算法流程 随机选择k个对象,每个对象代表一个簇的初始均值或中心 对剩余的每个对象,根据它与簇均值的距离,将他指派到最相似的簇 计算每个簇的新均值 回到步骤2,循环,直到准则函数收敛 常用准则函数:平方误差准则 (p是空间中的点,mi是簇Ci的均值) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 K=2 随机选择2个对象,作为簇的中心 将每个对象指派到最相似的簇 更新每个簇的均值 更新每个簇的均值 重新分派 重新分派… 可扩展性较好,算法复杂度为O(nkt),其中n为对象总数,k是簇的个数,t是迭代次数。 经常终止于局部最优解 缺点 只有当簇均值有定义的情况下,k均值方法才能使用。(某些分类属性的均值可能没有定义) 用户必须首先给定簇数目 不适合发现非凸形状的簇,或者大小差别很大的簇 对噪声和离群点数据敏感 k均值方法有些变种,他们的区别在于 不同的初始k个均值的选择 不同的相异度计算 不同的计算簇均值的策略 聚类分类数据的方法:k众数(mode)方法 用众数来替代簇的均值 采用新的相异性度量处理分类对象 采用基于频率的方法更新簇的众数 可以集成k均值和k众数方法,对具有数值和分类值的数据进行聚类 k均值方法对于离群点敏感 一个具有很大极端值的对象可能显著的扭曲数据的分布 平方误差函数将进一步严重恶化这种影响 k中心点方法:采用簇的中心点,即最靠近中心的对象来代表簇 降低算法对离群点的敏感度 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 k中心点方法仍然基于最小化所有对象与其对应的参照点之间的相异度之和原则,使用的是绝对误差标准 (p是空间中的点,代表簇Cj中一个给定对象;oj是簇Cj中的代表对象) 通常该算法重复迭代,直到每个代表对象都成为它的簇的实际中心点 首先随意选择初始代表对象 只要能够提高结果聚类质量,迭代过程就使用非代表对象替换代表对象 聚类结果的质量用代价函数评估,该函数度量对象与其簇的代表对象之间的平均差异度 为了确定非代表对象Orandom是否能够替代当前代表对象Oj,对于每一个非代表对象p,考虑四种情况 + Oi + Oj p + Orandom 1. 重新分配给Oi + Oi + Oj p + Orandom 2. 重新分配给Orandom + Oi + Oj p + Orandom 3. 不发生变化 + Oi + Oj p + Orandom 4. 重新分配给Orandom 重新分配将对代价函数产生影响,如果当前的代表对象被非代表对象所取代,代价函数就是计算绝对误差值的差 变换的总代价是所有非代表对象所产生的代价之和 总代价为负,实际的绝对误差E将减少,Oj可以被Orandom所取代 总代价为正,则本次迭代没有变化 当存在噪声和离群点时,k中心点方法比k均值方法更加鲁棒 中心点较少的受离群点影响 k中心点方法的执行代价比k均值方法要高 k均值方法: O(nkt) k中心点方法:O(k(n-k)2) n与k较大时,k中心点方法的执行代价很高 两种方法都要用户指定簇的数目k 什么是离群点? 一个数据集与其他数据有着显著区别的数据对象的集合 例如:运动员:Michael Jordon, 舒马赫,布勃卡 离群点产生原因 度量或执行错误(年龄:-999) 数据变异的结果 离群点挖掘 给定一个n个数据对象的集合,以及预期的离群点数目k,发现与剩余的数据有着显著差异的头k个数据对象 应用 欺诈检测、医疗中的异常分析等 统计的方法对于给定的数据集合假定了一个分布或概率模型(例如正态分布) 使用依赖于以下参数的不一致性检验(discordancy tests) 数据分布 分布参数(e.

文档评论(0)

118zhuanqian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档