第14讲 聚类分析.ppt

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第14讲 聚类分析

第十四讲 聚类分析 * SPSS数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性。标准化得方法很多,SPSS通常用Zscore法进行标准化。 Z标准化:每一个变量值与其平均值之差除以该变量的标准差。无量纲化后各变量的平均值为0,标准差为1,从而达到消除量纲和数量级的差异。 如何进行数据标准化,步骤为:分析-描述统计-描述-选择“将标准化的数据存为变量”,即可 * * 聚类分析 聚类分析的基本原理 层次聚类 K-均值聚类 聚类分析的SPSS实现 把“对象”分成不同的类别 这些类不是事先给定的,而是直接根据数据的特征确定的 把相似的东西放在一起,从而使得类别内部的“差异”尽可能小,而类别之间的“差异”尽可能大 聚类分析就是按照对象之间的“相似”程度把对象进行分类 什么是聚类分析(cluster analysis) ? 聚类分析的“对象”可以是所观察的多个样本,也可以是针对每个样本测得的多个变量 按照变量对所观察的样本进行分类称为Q型聚类 按照多项经济指标(变量)对不同的地区(样本)进行分类 按照样本对多个变量进行分类,则称为R型聚类 按照不同地区的样本数据对多个经济变量进行分类 两种聚类没有什么本质区别,实际中人们更感兴趣的通常是根据变量对样本进行分类(Q型聚类) 两种分类方式 按对象的“相似”程度分类 根据样本的观测数据测度变量之间的相似性程度可以使用夹角余弦、Pearson相关系数等工具,也称为相似系数 变量间的相似系数越大,说明它们越相近 根据变量来测度样本之间的相似程度则使用“距离” 把离得比较近的归为一类,而离得比较远的放在不同的类 按什么分类? 在对变量进行分类时,度量变量之间的相似性常用相似系数,测度方法有: 相似性的度量 (变量相似系数的计算方法) 夹角余弦 Pearson相关系数 相似性的度量 (样本点间距离的计算方法) 欧氏(Euclidean) 距离 平方欧氏(Squared Euclidean) 距离 Block 距离 切比雪夫(Chebychev)距离 明考斯基(Minkovski)距离 层次聚类又称系统聚类,目前使用最多的一种方法 事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类 根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样,只是方向相反 层次聚类 (hierarchical cluster) 将每一个样本作为一类,如果是k个样本就分k成类 按照某种方法度量样本之间的距离,并将距离最近的两个样本合并为一个类别,从而形成了k-1个类别 再计算出新产生的类别与其他各类别之间的距离,并将距离最近的两个类别合并为一类。这时,如果类别的个数仍然大于1,则继续重复这一步,直到所有的类别都合并成一类为止 总是先把离得最近的两个类进行合并 合并越晚的类,距离越远 事先并不会指定最后要分成多少类,而是把所有可能的分类都列出,再视具体情况选择一个合适的分类结果 层次聚类 (合并法) 分解方法原理与合并法相反 先把所有的对象(样本或变量)作为一大类,然后度量对象之间的距离或相似程度,并将距离或相似程度最远的对象分离出去,形成两大类(其中的一类只有一个对象) 再度量类别中剩余对象之间的距离或相似程度,并将最远的分离出去,不断重复这一过程,直到所有的对象都自成一类为止 层次聚类 (分解法) Nearest neighbor(最短距离法)—用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离 Furthest neighbor(最长距离法)—用两个类别中各个数据点之间最长的那个距离来表示两个类别之间的距离 Centroid clustering(重心法)—用两个类别的重心之间的距离来表示两个类别之间的距离 between-groups linkage(组间平均距离法)—SPSS的默认方法。是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离 Ward‘s method(离差平方和法)—使各类别中的离差平方和较小,而不同类别之间的离差平方和较大 类间距离的计算方法 层次聚类 SPSS分析过程 分析- 分类- 系统聚类 弹出“系统聚类分析”对话框 选择进行聚类分析的变量(变量和标注个案) 设置层次聚类的统计量输出(“统计量”按钮) 设置层次聚类的统计图输出(绘制) 设置输出结果(保存) 其他设置采用系统默认即可 设置完毕,单击“确定”按钮,等待输出结果 统计量对话框 “系统聚类分析”对话框 “保存”对话框 “绘图”对话框 群集成员统计表 聚类过程表 垂直冰柱图 从该图可以看出聚合的具体过程。 应该从下往上看,两个省份之间黄柱所对应的聚类数,即为两个省份在划分为此聚类数时属于同一类,并且在此以后一直属于同一类。 树状图

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档