- 1、本文档共56页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第八章数据聚类分析;聚类分析方法能够不依赖数据的标签信息,将大量数据归并成若干个性质相同的簇,已经成为大数据管理与应用的一个重要方法。在本章中您将了解聚类分析的基本概念、相似性度量、聚类分析的基本类型、性能度量,认识不同类型聚类分析的主要特点,掌握典型聚类分析算法的主要思想和建模过程,以及如何在实际场景中进行应用。
数据聚类分析概述
基于层次的聚类分析
基于划分的聚类分析
基于密度的聚类分析
基于网格的聚类分析
基于模型的聚类分析
集成聚类分析;01;聚类分析(ClusteringAnalysis)是大数据管理与应用的一个重要内容。它能够依据一定的准则将大规模杂乱无序的数据归并成若干个有意义的类别,使得同一个类别内数据的差异尽可能小,不同类别间数据的差异尽可能大,进而揭示出海量数据之间的深层次结构信息
聚类分析中得到的一组数据??象的集合,称其为簇(Cluster)。同一簇中的数据彼此相似,不同簇的数据彼此相异,具有良好的簇内相似性与簇间分离性。
一个完整的聚类分析过程主要包括数据预处理、特征构建、相似度计算、聚类分析算法选择、聚类结果性能度量等。;样本的相似性度量
样本之间的相似性描述样本之间的亲疏远近程度,是归并类的一个重要准则。其中,距离是把样本看成向量空间中的点,以该空间点与点之间的距离描述样本与样本之间的相似性程度,这是一种常用的度量样本相似性的方法。
簇间的相似性度量
除了需要定义样本之间相似度,聚类分析中还需要度量簇与簇之间的相似度。簇是一组相似样本的集合。可以通过样本之间的距离来定义簇。
簇的特征可以从不同角度进行构建,常用的有簇中心,即簇中所有样本的均值;簇直径,即簇中任意两个样本的最大距离。
簇间的相似性一般采用距离进行度量,一般有最小距离,最大距离,平均距离,中心距离四种。;在聚类研究领域中,已经存在大量的聚类算法,具体选择某种聚类算法主要取决于数据的类型、聚类分析的场景。大体上,现有的聚类分析方法可以分为:
基于划分的聚类分析
基于层次的聚类分析
基于密度的聚类算法
基于网格的聚类分析
基于模型的聚类分析
基于集成的聚类分析;聚类的性能度量大致可以分为两类:
外部指标(ExternalIndex):需要利用数据结构的先验知识进行评价,即将聚类结果与某个参考标签进行比较;
内部指标(InternalIndex):直接利用数据的内在结构特性的进行评价,即直接考察聚类结果而不利用任何参考标签。;基于层次的聚类分析通过对样本数据的递归划分创建一个相应的树状结构层次进行聚类。对于样本数据的划分,可以采用自下而上的凝聚策略,也可以采用自上而下的分裂策略。
自下而上的凝聚式聚类首先将数据集中的每个样本分别视为一个初始簇,然后根据距离大小不断迭代合并相近的两个簇,直至达到预设的簇个数,或者所有的样本都在一个簇中。
绝大多数的层次聚类算法都属于这一类,如AGENS(AGlomerativeNESting)、ROCK(RObustClusteringusinglinKs)等。
自上而下的分裂式聚类则与凝聚式聚类相反,它首先将数据集中的所有样本视为一个初始簇,然后逐渐迭代分裂成越来越小的簇,直到达到预设的簇个数,或者每个样本自成一簇。
常见的分裂式聚类算法有单元分裂方法、DIANA(DIvisiveANAlysis)等。;?;AGENS模型概述
AGENS模型是一种典型的自下向上的凝聚式聚类分析方法。该聚类模型历史比较悠久,1951年Florek等人依据最小距离作为簇距离实现聚类目标,不久,不同学者选择不同指标度量簇距离,这些可以理解为AGENS模型的雏形。1990年,Kaufman和Rousseeuw对这些凝聚策略进行总结,并提出AGENS模型以及其建模过程。
AGENS模型的主要思想是采用自下向上的凝聚策略创建树状层次结构,先对样本数据进行初始化,即把每个样本当成一个簇,然后不断重复迭代合并簇间距离最小的两个簇,直至达到终止条件。这样一个树状的层次结构已经形成,每层链接一组聚类簇,在特定层次下进行分割就可以得到相应的聚类结果。;?;模型
对于20个随机数样本上形成的树状结构,每层链接一组类簇,根据给定聚类数目进行分割,即可得到每一样本相应的簇标签。
AGENS是一个构建层次树状结构的过程,其模型也就是特定的树状层次结构。
;策略
AGENS模型首先需要确定簇间距离的度量标准,当根据最小距离、最大距离和平均距离计算簇间距离时,AGENS模型又可分别称为“单链接”、“全链接”、“均链接”算法。
AGENS模型主要采用贪心策略每次合并簇间距离最小的两个簇,最终形成一种层次的树状结构,使得该树状结构在任一层次的同一分支上的簇内距离最小,且每一层次对应的簇的数目也不相同。;算法
AGNES模型先初始化数据集中
您可能关注的文档
- 阿姆斯特朗《市场营销学(第13版)》 课件 第 9 章 定价:理解并获取顾客价值.pptx
- 阿姆斯特朗《市场营销学(第13版)》 课件 第 10 章 营销渠道:传递顾客价值.pptx
- 阿姆斯特朗《市场营销学(第13版)》 课件 第 11 章 零售与批发.pptx
- 阿姆斯特朗《市场营销学(第13版)》 课件 第 13 章 人员销售和销售促进.pptx
- 阿姆斯特朗《市场营销学(第13版)》 课件 第 14 章 直接营销、网络营销、社交媒体营销和移动营销.pptx
- 阿姆斯特朗《市场营销学(第13版)》 课件 第 15 章 全球市场.pptx
- 阿姆斯特朗《市场营销学(第13版)》 课件 第 16 章 可持续营销:社会责任和伦理道德.pptx
- 大数据管理与应用 课件 -第二章 大数据管理与应用的数学基础.pptx
- 大数据管理与应用 课件 第九章 数据关联分析.pptx
- 大数据管理与应用 课件 第六章 数据回归分析.pptx
文档评论(0)