均值聚类算法-西安电子科技大学软件学院.PPT

均值聚类算法-西安电子科技大学软件学院.PPT

  1. 1、本文档共149页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与商务智能 Data Mining Business Intelligence 西安电子科技大学 软件学院 主讲人:黄健斌 分类与聚类 尽管分类是一种识别对象组或类的有效手段,但是它常常需要高昂的代价收集和标记大量训练元组集或模式,以便分类法使用它们对每个组建模 希望: 首先,基于数据的相似性把数据集合划分成组 然后,给这些数量相对较少的组指定标号 基于聚类的过程的另一个优点: 可以适应变化,并且能够挑选出区分不同组的有用特征 聚类 什么是聚类? 聚类(clustering)是将物理或抽象对象的集合分成相似的对象类或簇(cluster)的过程 相关概念 簇是数据对象集合,同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异 相异度根据描述对象的属性值评估,通常使用距离度量 聚类 什么是聚类? 聚类(clustering)是将物理或抽象对象的集合分成相似的对象类或簇(cluster)的过程 相关概念 簇是数据对象集合,同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异 相异度根据描述对象的属性值评估,通常使用距离度量 聚类 应用领域 市场研究、模式识别、数据分析、图像处理 其他应用 在某些应用中,聚类又称数据分割(data segmentation),因为它根据数据的相似性把大型数据集合划分成组 聚类还可以用于离群点检测(outlier detection),其中离群点(“远离”任何簇的值)可能比普通情况更值得注意 聚类技术 基于划分的聚类 基于层次的聚类 基于密度的聚类 基于图论的聚类算法 基于网格的聚类算法 基于模型的聚类算法 基于划分的聚类 划分方法(partitioning methods) 定义:给定n个对象或数据元组的数据库D,划分方法构建数据的k个划分(k ≤ n),每个划分表示一簇 方法:给定要构建的划分数目k,划分方法创建一个初始划分;然后采用迭代重定位技术,尝试通过对象在组建移动来改进划分 比较常用的算法 k-means:k均值聚类算法,其中每个簇都用该簇中对象的均值来表示 入选数据挖掘十大算法 k-medoids:k中心点聚类算法,其中每个簇用接近簇中心的一个对象来表示 CLARANS:大型数据库中的划分聚类算法 k-means 算法思想: 随机选择k个对象,每个对象初始地代表一个类的平均值;对剩余每个对象,根据其到类中心的距离,被划分到最近的类;然后重新计算每个类的平均值。不断重复这个过程,直到所有的样本都不能再分配为止。 给定类 , 其均值定义为: (在定义里假设每个对象是数值型属性) k-means 输入:期望得到的簇的数目k,n个对象的数据D 输出:k个簇的集合 方法: (1)选择k个对象作为初始的簇的质心 (2)repeat (3)计算对象与各个簇的质心的距离,将对象划分到距离其最近的簇 (4)重新计算每个新簇的均值 (5)Until簇的质心不再变化 k-means k-means 假设:给定如下要进行聚类的对象: {2,4,10,12,3,20,30,11,25},k = 2,请使用k均值划分聚类 步骤如下: m1 m2 K1 K2 2 4 {2,3} {4,10,12,20,30,11,25} 2.5 16 {2,3,4} {10,12,20,30,11,25} 3 18 {2,3,4,10} {10,12,20,30,11,25} 4.75 19.6 {2,3,4,10,11,12} {20,30,25} 7 25 {2,3,4,10,11,12} {20,30,25} k-means 算法的计算复杂度为O(nkt) 其中 n为数据集中对象的数目 k为期望得到的簇的数目 t为迭代的次数 在处理大数据库时也是相对有效的(可扩展性) k-means 优点 聚类时间快

文档评论(0)

sunhongz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档