[理学]第10讲_聚类分析.ppt

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[理学]第10讲_聚类分析

10.1 聚类分析简介 引例:讨论如何将一副普通纸牌中四种花色的A,K,Q,J共16张牌进行分类。 (1)给出一些分组情况。 如:单张套;同花套;黑红套;同字套等。 (2)有意义的分组依赖于“相似”的定义。 (3)在聚类分析的大多数实际应用中,研究者清楚了解如何区分“好”的分组与“坏”的分组。可否列出所有可能的分组,然后从中选择“最优”分组,以供未来研究? 分组情况: 16张牌分为一组有一种方法; 16张牌分为两组有32767种方法; 16张牌分为三组有7141686种方法… 由于时间的限制,要从所有可能的分组中找出最优分组是不可能的。 可行的方案:建立算法,利用它们找到好的,但未必是最好的分组。 聚类分析是对纪录(或变量)进行分类的方法 实质: 按照距离的远近将数据分成若干个类别,以使得类别内数据的差异尽可能的小,类别间差异尽可能的大。 两个要点: (1)建立定量指标,描述对象之间的差异。 通过距离或相似性的方式来描述。 (2)建立将对象分类的算法。 3、常用的距离量度 I、连续变量的距离量度 例1:假定五个人具有以下特征: 定义6个二值变量来表示6 个特征: 数据录入见文件:p527li1.sav。 试求出5个人之间的相似系数和距离。 SPSS操作命令: 执行【Analyze】/【Correlate】/【Distances】命令 Compute Distances: Between Cases ——计算记录间的距离或相似系数 (1)Measure: Similarities ——计算相似系数矩阵 Measures 复选框:Binary ——二值变量 选 Simple matching ——相似系数的计算方法 Simple matching法计算公式为: 某两人之间的相似系数=(a+d)/(a+b+c+d) 其中a,b,c,d含义如下: (2)Measure: Dissimilarities ——计算距离矩阵 Measures 复选框:Binary ——二值变量 选 Euclidean distance ——距离的计算方法 Euclidean distance法计算公式为: 某两人之间的距离= (b,c含义见上表) SPSS输出结果为: (1)相似系数矩阵 根据相似系数的大小,可以断言第二人与第五人最相似,而第一人与第五人最不相似。 根据相似性数字将这五人分成相对接近的两组,则可得出(1,3,4)和(2,5)。 (2)距离矩阵: 二、聚类算法 I、分层聚类法 SPSS: Hierarchical Cluster Analysis II、重新定位聚类法(非分层聚类法) 流行的非分层聚类法——K均值法 SPSS: K-Means Cluster Analysis III、智能聚类法 SPSS: TwoStep Cluster Analysis 2、分割分层法: 由所有元素组成的一个类开始,将它分割成两个子类,使一个子类的元素“远离”另一个子类的元素;然后将这两个类进一步分割成不相似的类;这一过程一直进行到每个元素单独成为一类时为止。 这两类方法的运算原理实际上是相同的,仅仅是方向相反而已。SPSS中提供的是聚集分层法。 二、聚集分层算法的步骤 1、从N个类(每类只含一个元素)和N*N对称距离(或相似性)矩阵D开始; 2、将距离最近的两类合并为一个类别,从而N类成为N-1个类别,计算新产生的类别与其他各个类别之间的距离或相似度,形成新的距离(或相似性)矩阵; 3、重复步骤2,直到所有的元素在一个类别时为止。 三、两个类别间距离的定义方法 1、最短距离法(Nearest Neighbor): 用两个类别中各个元素间最短的距离来表示两个类别间的距离。 2、最长距离法(Furthest Neighbor): 用两个类别中各个元素间最长的那个距离来表示两个类别间的距离。 3、

文档评论(0)

hhuiws1482 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档