- 1、本文档共141页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘第七章 聚类分析
Chapter 7. 聚类分析 聚类分析概述 聚类分析的数据类型 主要聚类分析方法分类 划分方法(Partitioning Methods) 分层方法 基于密度的方法 基于网格的方法 基于模型(Model-Based)的聚类方法 6.1 聚类分析概述 簇(Cluster):一个数据对象的集合 在同一个类中,对象之间具有相似性; 不同类的对象之间是相异的。 聚类分析(群分析、簇群分析) 把一个给定的数据对象集合分成不同的簇; 所谓聚类就是按照事物的某些属性,把事物聚集成类, 使类间的相似性尽可能的小,类内相似性尽量大的过程 聚类是一种无监督分类法: 没有预先指定的类别; 典型的应用 作为一个独立的分析工具,用于了解数据的分布; 作为其它算法的一个数据预处理步骤; ---异常分析 应用聚类分析的例子 市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区; 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户; 城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅; 地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类; 生物方面,聚类分析可以用来对动物或植物分类,或根据基因功能对其进行分类以获得对人群中所固有的结构更深入的了解。 什么是一个好的聚类方法? 一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点: 高的簇内相似性 低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现; 聚类方法的好坏还取决于该方法是能发现某些还是所有的隐含模式; 可伸缩性 能够处理不同类型的属性 能发现任意形状的簇 在决定输入参数的时候,尽量不需要特定的领域知识 能够处理噪声和异常 对输入数据对象的顺序不敏感 能处理高维数据 能产生一个好的、能满足用户指定约束的聚类结果 结果是可解释的、可理解的和可用的 6.2 聚类分析算法分类 分裂法 层次法 基于密度类方法 基于网格类方法 基于模型类方法 1、分裂法(partitioning method) 给定一个有N个元组或者记录的数据集,分裂法将构造K个分组,每个分组就代表一个聚类,KN ,而且这K个分组满足下列几个条件 (1)每个分组至少包含一个数据记录 (2)每一个数据记录属于且仅属于一个分组(在某些模糊聚类算法中可以放宽) 对于一个给定 的K,算法首先给出一个初始的分组方法法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好。 好的标准就是:同组记录越来越近,不同组记录越来越好 使用这个算法的基本思想有: K-MEANS算法、KMEDOID算法、CLARANS算法 2、层次法(hierarchical method) 层次方法对给定数据对象集合进行层次的分解。 凝聚----自底向上 分裂-----自顶向下的 缺点:一旦一个步骤(合并或分裂)完成,它就不能被撤消,因此而不能更正错误的决定。 代表算法有: BIRCH算法(利用层次方法的平衡迭代归约和聚类) 、 CURE算法(利用代表点聚类) 3、基于密度的方法(density-based method) 它与其他方法的根本区别:不是基于各种各样的距离的、而是基于密度的,这样就能克服基于距离的算法只能发现“类圆形”聚类的缺点。 其主要思想是:只要临近区域的密度超过某个阈值,就继续聚类。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。 代表算法有: DBSCAN算法 (基于高密度连接区域的密度聚类方法) OPTICS算法、DENCLUE算法 4、基于网格的方法(grid-based method) 基于网格的聚类方法采用一个网格数据结构。把对象空间量化为有限数目的单元,形成了一个网格结构。 优点:处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。 代表算法有: STING算法(统计信息风格)、CLIQUE算法、WAVE-CLUSTER算法 5、基于模型的方法(model-based method) 给每个聚类假设一个模型(如密度分布
文档评论(0)