- 1、本文档共108页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5聚类分析资料.ppt
第五章 聚类分析(提纲) 5.1 聚类分析概述 5.2 相似性计算方法 5.3 常用聚类方法 5.3.1 划分方法 k-means算法(k-均值算法) k-medoids算法(k-中心算法) 5.3.2 层次方法 AGNES算法(合并聚类法) DIANA算法(分裂聚类法) 5.4 孤立点分析 第五章 聚类分析(提纲) 5.1 聚类分析概述 5.2 相似性计算方法 5.3 常用聚类方法 5.3.1 划分方法 k-means算法(k-均值算法) k-medoids算法(k-中心算法) 5.3.2 层次方法 AGNES算法(合并聚类法) DIANA算法(分裂聚类法) 5.4 孤立点分析 5.1 聚类分析概述 聚类分析的定义 聚类分析(Cluster Analysis)是一个将数据集中的所有数据,按照相似性划分为多个类别(Cluster, 簇)的过程; 簇是相似数据的集合。 聚类分析是一种无监督(Unsupervised Learning)分类方法:数据集中的数据没有预定义的类别标号(无训练集和训练的过程)。 要求:聚类分析之后,应尽可能保证类别相同的数据之间具有较高的相似性,而类别不同的数据之间具有较低的相似性。 5.1 聚类分析概述 聚类分析在数据挖掘中的作用: 作为一个独立的工具来获得数据集中数据的分布情况; 作为其他数据挖掘算法的预处理步骤。 5.1 聚类分析概述 聚类分析在数据挖掘中的作用: 作为一个独立的工具来获得数据集中数据的分布情况; 首先,对数据集执行聚类,获得所有簇; 然后,根据每个簇中样本的数目获得数据集中每类数据的大体分布情况。 作为其他数据挖掘算法的预处理步骤。 5.1 聚类分析概述 聚类分析在数据挖掘中的作用: 作为一个独立的工具来获得数据集中数据的分布情况; 作为其他数据挖掘算法的预处理步骤。 首先,对数据进行聚类——粗分类; 然后,分别对每个簇进行特征提取和细分类,可以有效提高分类精度。 5.1 聚类分析概述 常用的聚类分析方法: 划分法(Partitioning Methods):以距离作为数据集中不同数据间的相似性度量,将数据集划分成多个簇。 属于这样的聚类方法有:k-means、k-medoids等。 层次法(Hierarchical Methods):对给定的数据集进行层次分解,形成一个树形的聚类结果。 属于这样的聚类方法有:自顶向下法、自底向上法。 第五章 聚类分析(提纲) 5.1 聚类分析概述 5.2 相似性计算方法 5.3 常用聚类方法 5.3.1 划分方法 k-means算法(k-均值算法) k-medoids算法(k-中心算法) 5.3.2 层次方法 AGNES算法(合并聚类法) DIANA算法(分裂聚类法) 5.4 孤立点分析 5.2 相似性计算方法 在聚类分析中,样本之间的相似性通常采用样本之间的距离来表示。 两个样本之间的距离越大,表示两个样本越不相似性,差异性越大; 两个样本之间的距离越小,表示两个样本越相似性,差异性越小。 特例:当两个样本之间的距离为零时,表示两个样本完全一样,无差异。 5.2 相似性计算方法 在聚类分析中,样本之间的相似性通常采用样本之间的距离来表示。 样本之间的距离是在样本的描述属性(特征)上进行计算的。 在不同应用领域,样本的描述属性的类型可能不同,因此相似性的计算方法也不尽相同。 连续型属性(如:重量、高度、年龄等) 二值离散型属性(如:性别、考试是否通过等) 多值离散型属性(如:收入分为高、中、低等) 混合类型属性(上述类型的属性至少同时存在两种) 5.2 相似性计算方法 5.2.1 连续型属性的相似性计算方法 5.2.2 二值离散型属性的相似性计算方法 5.2.3 多值离散型属性的相似性计算方法 5.2.4 混合类型属性的相似性计算方法 5.2 相似性计算方法 5.2.1 连续型属性的相似性计算方法 5.2.2 二值离散型属性的相似性计算方法 5.2.3 多值离散型属性的相似性计算方法 5.2.4 混合类型属性的相似性计算方法 5.2.1 连续型属性的相似性计算方法 假设两个样本Xi和Xj分别表示成如下形式: Xi=(xi1, xi2, …, xid ) Xj=(xj1, xj2, …, xjd ) 它们都是d维的特征向量,并且每维特征都是一个连续型数值。 对于连续型属性,样本之间的相似性通常采用如下三种距离公式进行计算。 5.2.1 连续型属性的相似性计算方法 欧氏距离(Euclidean distance) 曼哈顿距离(Manhattan distance) 闵可夫斯基距离(Minkowski distance) 5.2.1 连续型属性的相似性计算方法 Euclidean距离和Manhattan距离的性质: d(i,j) ? 0
文档评论(0)