数据分析教程聚类分析.ppt

下载文档 降价啦

15
0
约2.9千字
约 47页
2017-07-17 发布于上海
举报
版权申诉
保障服务

数据分析教程聚类分析.ppt

1、本文档共47页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SPSS数据分析教程 —《SPSS数据分析教程》第10章　聚类分析目录 10.1　聚类分析简介 10.2　个案间的距离 10.2.1　定距数据（Scale Mearsurement）距离定义方式 10.2.2　分类数据的频数数据（Count） 10.2.3　二分类数据 10.3　类之间的距离 10.4　系统聚类算法过程 10.5　系统聚类案例 10.6　K-均值聚类 10.6.1　K-均值法简介 10.5.2　K-均值法案例 10.7　两步法聚类 10.7.1　两步法简介 10.7.2　两步法案例分析 10.8　聚类分析注意事项本章学习目标理解聚类分析的基本概念；了解个案之间距离的定义方式；了解类之间距离的定义方式；掌握系统聚类方法；掌握两步法聚类方法；掌握K均值聚类方法。 10.1 聚类分析简介根据对象的某些属性把它们分到一些组中，使得同组内的对象尽可能地相似，不同组中的对象尽可能地不一样，即所谓的聚类分析。聚类分析方法被称为“无监督的分析方法”，意即没有因变量。而另外一种分类的方法是判别分析，它是把样本归入到已知的事先已经确定下来的类中去, 它有因变量（即事先确定的类别），是“有监督的分析方法”。聚类分析不必事先知道分类对象的结构，从一批样品的多个观测指标中，找出能度量样品之间或指标（变量）之间相似程度或亲疏关系的统计量，构成一个对称相似性矩阵，并按相似程度的大小，把样品或变量逐一归类。根据对样品聚类还是对变量聚类，聚类分析分Q型聚类和R型聚类。对变量的聚类称为R型聚类，而对样品（即观测值）聚类称为Q型聚类。通俗讲，R型聚类是对数据中的列分类，Q型聚类是对数据中的行分类。 SPSS Statistics提供了3种聚类方法，它们是系统聚类法（又称层次聚类）、K-均值聚类（又称快速聚类法）和两步法聚类。 10.2 个案间的距离定距数据距离定义方式欧式（Euclidean）距离平方欧式距离余弦距离皮尔逊（Pearson）相关性距离切比雪夫（Chebychev）距离块（Block）距离闵考斯基（Minkowski）距离幂（Power）距离 10.2.2 分类数据之间的距离卡方度量 Phi方度量 10.3 类之间的距离 SPSS提供了7种计算两个类距离的方法。组间连接法（Between-groups Linkage）组内连接法（Within-Groups Linkage）最近邻元素法（Nearest Neighbor）最长距离法（Furthest Neighbor）质心聚类法（Centroid Clustering）中位数聚类法（Median Clustering) 离差平方和法（Ward’s Method） 10.4 系统聚类算法过程系统聚类的步骤第1步：数据标准化。把原始数据标准化得到标准化数据矩阵。第2步：计算相似系数矩阵。这里以余弦距离为例。计算Q型聚类任意两个样品xj和xk的相似系数矩阵。第3步：选出有最大相似系数的样品组。第4步：把该组样品加权平均，这样就形成了一个新的组合样品。第5步：用新的样品类代替原来的一对样品点。第6步：对新形成的样品与其余样品数据重新计算相似系数矩阵。第7步：如此重复第2步到第5步的过程，直到把所有样品都归类完毕。第8步：最后，按下列原则构成类关系图。若两个样品在已经连接成的组中未出现过，则它们连接成一个新组。若两个样品中有一个在某组中出现过，则另一个就加入该组。若两个样品都在同一组中，则这对样品不再分组。若两个样品都在不同组中出现过，则把这两组连接在一起。 10.5 系统聚类案例打开本章的数据文件Cluster_cars.sav。该数据是市场上一些品牌汽车的资料，它包括汽车制造商、型号、新车价钱、4年以后的二手车价钱，还有功率、引擎大小、车重、车体长、车体宽、车轮大小、油耗等诸多属性。按照这些数据对当前市场上的车进行聚类，看看哪些品牌的车定位有类似之处，制造商可以据此制定相应的策略。选择【分析】→【分类】→【系统聚类】把从“Price in thousand”到“Fuel efficiency”的所有变量选入右边的“变量框”。把“Model”变量选入“标注个案”框。依次单击【统计量】、【绘制】、【方法】和【保存】按钮 10.6 K-均值聚类 K-均值聚类的算法过程第1步：用户给定聚类个数K。第2步：给出初始类中心。第3步：计算所有个体到这K个类中心的距离，然后按照到K个类中心距离最短原则，把所有个体分别划分到距最近的中心点所在的类中，这样形成了K个类，完成一次迭代过程。第4步：重新计算K个类的类中心。第5步