第四讲聚类分析.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四讲聚类分析

第三讲 聚类分析 第一节 什么是聚类 1.1 聚类把所有的观察对象分类:使性质相近的对象分在同一个类,性质差异较大分在不类。也叫Q型聚类。 1.2 聚类过程中,“性质”由一组变量(variables)代表,把它用一个p维向量表示: 1.3 聚类过程中,两个观察对象和性质的“差异”程度由它们之间的距离dij来度量。 1.4 还有另一种聚类,是把变量(variables)作为分类对象。这种聚类用在变量数目比较多,且相关性比较强的情形。目的是将性质相近的变量聚为同一个类,找出代表变量。这种聚类叫R型聚类。。 第二节 距离与相似系数 2.1 点(观察值,case)到点的距离 设有两个p维观察值(点): 它们的距离有不同度量方式: 1.欧氏距离(Euclidian Distance) 2.欧氏距离平方(Squared Euclidian Distance) 这是SPSS系统默认的距离。 3.闵可夫斯基距离(Minkowski) 其中参数q为用户选项。 4.切比雪夫距离(Chebyshev) 5.布洛克距离(Block) 6.自定义距离(Customized) 其中参数q、r为用户选项。 以上距离越小,表示个体和的性质越相近。 2.2 相似系数 1.皮尔逊相似系数(Pearson) 2.夹角余弦(Cosine) 相似系数值越大,表示观察对象性质越相近。 2.3 类(group)与类之间的距离 类指观察值的集合。两个类之间的距离,是用这两个类的特殊点之间的距离来定义。 Ga和Gb以下方法表示这两个类之间的距离: 1.最短法 2.最长法 3.重心法 4.类平均法 5.离差平方和法 第三节 数据的中心化与标准化 在聚类的时候,由于表示聚类特征的变量往往具有不同的量纲,因此聚类前经常要将其数据标准化。标准化后的数据是无量纲的。SPSS系统默认无标准化。 以下假设变量X的观察值为:X1,X2,…,Xn;它的均值和标准差分别记为和S。 3.1 中心化 中心化以后的数据均值为0。 3.2 正规化 易见,正规化以后的数据最小值为0。 3.3 标准化 1.标准差标准化(z-score) 标准差标准化后的数据均值为0,标准差为1。 2.极差标准化 式中的R为观察值的极差(最大—最小)。极差标准化后的数据均值为0,极差为1。 3.极差正规化 变换后的数据最小值为0,极差为1。 第四节 系统聚类法(Hierarchical Clustering) 4.1 系统聚类法的算法 1.取每个观察值为一个类; 2.将性质最近的两个类合并为一个类,类的数目减1; 3.如类的数目(2,转2); 4.结束聚类过程。 4.2 系统聚类法举例 4.3 聚类谱系图(Dendrogram) 略。 第五节 系统聚类的不同方法介绍 系统聚类由于使用的类间距离不同,产生了不同的聚类方法。主要方法有: 1.组间平均距离法(Between-Groups Linkage) 使用类平均法计算类间距离。这是SPSS系统默认的方法。 2.最短距离法(Nearest Neighbor) 使用最短法计算类间距离。 3.最长距离法(Furthest Neighbor) 使用最长法计算类间距离。 4.重心法(Centroid Clustering) 使用重心法计算类间距离。 5.离差平方和法(Ward’s Mathod) 使用离差平方和法计算类间距离。 第六节 系统聚类举例 例 数据data06,将所列10个西部省市自治区按五项经济指标:国内生产总值(gdp)、工业总产值(industry)、农林牧渔总产值(agri)、全社会固定资产投资(gdinvest)和全社会最终消费(consume)用系统聚类法分为三类,距离采用Euclidian distance,数据作z-score标准化。并从平均值角度说明这三类地区的区别。 在Hierarchical Cluster Analysis对话框中,将上述五个变量输入Variable(s),点击Statistics ,在该对话框的Single solution中键入3,返回;点击Save ,在该对话框的Single solution中键入3,返回;点击Method ,在该对话框的Measure中Interval下拉菜单中选择Euclidian Distance,再在Transform之Standardize的下拉菜单中选择z-score。返回。OK ,得: 这是一张聚类过程表,其中的Stage表示步骤,Cluster Combine表示被合并的类,

文档评论(0)

tianma2015 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档