网站大量收购独家精品文档,联系QQ:2885784924

[工学]SPSS聚类分析.ppt

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工学]SPSS聚类分析

2.4 类平均法(group average method) 等于类Gp和Gq中任两个样品距离的平均.K,L分别为 类Gp,Gq中的样品数。 .2 .1 .4 .5 .3 Gp Gq 类平均法有两种形式: 一种是组间联结法(between-groups linkage), 计算距离时只考虑两类之间的样品距离的平均. 一种是组内连接within-groups linkage,计算 距离时只考虑两类所有样品之间的距离的平均. 2.5离差平方和法( Ward’s method) 采用类的直径为 为G的重心 用离差平方和法定义Gp和Gq之间的距离为: 并类后的S的增加量 G1 G2 G3 G4 G5 G2 0.5 G3 8.0 4.5 G4 18.0 12.5 2.0 G5 32.0 24.5 8.0 2.0 G6 40.5 32.0 12.5 4.5 0.5 6 快速聚类 如果选择了N个数值型变量参与聚类分析,最后要求聚类数K,那么可以由系统首先选择K个观测量作为聚类的种子,也称初始类中心、凝聚点,按照距这几个类中心的距离最小原则把观测量分到各类中心所在的类中去,形成第一次迭代形成的K类。根据组成每一类的观测量计算各变量均值,每一类中的n个均值在N维空间中又形成K个点,这就是第二次迭代的类中心,按照这种方法依次迭代下去直到分类比较合理为止。 快速聚类步骤 1、选择分析变量 2、指定聚类数目 3、选择k个样本作为凝聚点 4、按照距初始类中心最小的原则将各观察量分到聚类中心所在的类中去,形成第一步迭代的k类 5、计算每类中所有变量的均值,作为第二次迭代的中心 6、重复3、4步,直至指定的迭代次数或达到终止的条件 例1 假定我们对A,B,C,D四个样品分别测量 两个变量X1和X2得到结果。将样品聚为两类。 样品 X1 X2 A 5 3 B -1 1 C 1 -2 D -3 -2 第一步:将样品随意分成两类 聚类 X1 X2 (A,B) 2 2 (C,D) -1 -2 第二步:计算样品到中心的距离 第三步:将样品B分配给(C、D) 聚类 X1 X2 (A) 5 3 (B,C,D) -1 -1 第四步:再次检查每个样品,是否需要重新分类 聚类 A B C D (A) 0 40 41 89 (B,C,D) 52 4 5 5 SPSS的系统聚类分析 聚类方法的选择: between-groups linkage:组间连接 within-groups linkage:组内连接 nearest neighbor:最近邻法 furthest neighbor:最远邻法 centroid clustering:重心聚类法 median clustering:中位数法 Ward’s method:离差平方和法 对距离的测度方法选择: Euclidean distance :欧氏距离 squared Euclidean distance:欧氏距离平方 cosine:相似性测度 Pearson correlation:皮尔逊相关 Chebychev:切比雪夫距离 block:绝对距离 Minkowski:明考斯基距离 customized:自定义 选择统计表: Dendrogram:树形图 Icicle:冰柱图 [n,m]=size(x); stdr=std(x); xx=x./stdr(ones(n,1),:); %标准化数据 y=pdist(xx); %计算样本距离 z=linkage(y); %进行聚类 H=dendrogram(z); %画出聚类谱系图 T=cluster(z,3); %将全部样本分为三类 find(T==2) %找出属于第二类的样品编号 Z = linkage(Y,method) Y = pdist(X,metric) 第 三 讲 聚 类 分 析 1 聚类分析的基本思想 聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类。 基本思想是根据事物本身的特性研究个体分类的方法;聚类原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 2 相似性度量 进行“相关性”或“相似性”度量。在相似性度量 中常常包含有许多主观上的考虑,但是最重要的是 考虑指标性质或观测的尺度。 当样品进行聚类时,“靠近” 往往是距离。同时对指标进行 聚类时,根据相关系数或某种 关联性度量来聚类。 Q型聚类统计量(距离

文档评论(0)

ipbohn97 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档