- 1、本文档共47页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SPSS数据分析教程 —《SPSS数据分析教程》 第10章 聚类分析 目录 10.1 聚类分析简介 10.2 个案间的距离 10.2.1 定距数据(Scale Mearsurement)距离定义方式 10.2.2 分类数据的频数数据(Count) 10.2.3 二分类数据 10.3 类之间的距离 10.4 系统聚类算法过程 10.5 系统聚类案例 10.6 K-均值聚类 10.6.1 K-均值法简介 10.5.2 K-均值法案例 10.7 两步法聚类 10.7.1 两步法简介 10.7.2 两步法案例分析 10.8 聚类分析注意事项 本章学习目标 理解聚类分析的基本概念; 了解个案之间距离的定义方式; 了解类之间距离的定义方式; 掌握系统聚类方法; 掌握两步法聚类方法; 掌握K均值聚类方法。 10.1 聚类分析简介 根据对象的某些属性把它们分到一些组中,使得同组内的对象尽可能地相似,不同组中的对象尽可能地不一样,即所谓的聚类分析。 聚类分析方法被称为“无监督的分析方法”,意即没有因变量。而另外一种分类的方法是判别分析,它是把样本归入到已知的事先已经确定下来的类中去, 它有因变量(即事先确定的类别),是“有监督的分析方法”。 聚类分析不必事先知道分类对象的结构,从一批样品的多个观测指标中,找出能度量样品之间或指标(变量)之间相似程度或亲疏关系的统计量,构成一个对称相似性矩阵,并按相似程度的大小,把样品或变量逐一归类。 根据对样品聚类还是对变量聚类,聚类分析分Q型聚类和R型聚类。对变量的聚类称为R型聚类,而对样品(即观测值)聚类称为Q型聚类。通俗讲,R型聚类是对数据中的列分类,Q型聚类是对数据中的行分类。 SPSS Statistics提供了3种聚类方法,它们是系统聚类法(又称层次聚类)、K-均值聚类(又称快速聚类法)和两步法聚类。 10.2 个案间的距离 定距数据距离定义方式 欧式(Euclidean)距离 平方欧式距离 余弦距离 皮尔逊(Pearson)相关性距离 切比雪夫(Chebychev)距离 块(Block)距离 闵考斯基(Minkowski)距离 幂(Power)距离 10.2.2 分类数据之间的距离 卡方度量 Phi方度量 10.3 类之间的距离 SPSS提供了7种计算两个类距离的方法。 组间连接法(Between-groups Linkage) 组内连接法(Within-Groups Linkage) 最近邻元素法(Nearest Neighbor) 最长距离法(Furthest Neighbor) 质心聚类法(Centroid Clustering) 中位数聚类法(Median Clustering) 离差平方和法(Ward’s Method) 10.4 系统聚类算法过程 系统聚类的步骤 第1步:数据标准化。把原始数据标准化得到标准化数据矩阵。 第2步:计算相似系数矩阵。这里以余弦距离为例。计算Q型聚类任意两个样品xj和xk的相似系数矩阵。 第3步:选出有最大相似系数的样品组 。 第4步:把该组样品加权平均,这样就形成了一个新的组合样品 。 第5步:用新的样品类代替原来的一对样品点。 第6步:对新形成的样品与其余样品数据重新计算相似系数矩阵。 第7步:如此重复第2步到第5步的过程,直到把所有样品都归类完毕。 第8步:最后,按下列原则构成类关系图。 若两个样品在已经连接成的组中未出现过,则它们连接成一个新组。 若两个样品中有一个在某组中出现过,则另一个就加入该组。 若两个样品都在同一组中,则这对样品不再分组。 若两个样品都在不同组中出现过,则把这两组连接在一起。 10.5 系统聚类案例 打开本章的数据文件Cluster_cars.sav。 该数据是市场上一些品牌汽车的资料,它包括汽车制造商、型号、新车价钱、4年以后的二手车价钱,还有功率、引擎大小、车重、车体长、车体宽、车轮大小、油耗等诸多属性。 按照这些数据对当前市场上的车进行聚类,看看哪些品牌的车定位有类似之处,制造商可以据此制定相应的策略。 选择【分析】→【分类】→【系统聚类】 把从“Price in thousand”到“Fuel efficiency”的所有变量选入右边的“变量框”。 把“Model”变量选入“标注个案”框。 依次单击【统计量】、【绘制】、【方法】和【保存】按钮 10.6 K-均值聚类 K-均值聚类的算法过程 第1步:用户给定聚类个数K。 第2步:给出初始类中心。 第3步:计算所有个体到这K个类中心的距离,然后按照到K个类中心距离最短原则,把所有个体分别划分到距最近的中心点所在的类中,这样形成了K个类,完成一次迭代过程。 第4步:重新计算K个类的类中心。 第5步
您可能关注的文档
- 数形结合思想说课.ppt
- 数学:算术平方根.ppt
- 数形结合思想在教学中的应用(王新华).ppt
- 数形结合的思想方法二.ppt
- 数据、信息和知识的区别与联系.ppt
- 数据上传(小车上传到电脑).ppt
- 数据业务优化经验总结.ppt
- 数据业务发展思路.ppt
- 数据中心基本知识.pptx
- 数据业务发展与激励系统.ppt
- DB32T3444 健康企业评估规范.pdf
- DBJ25-82-2000 甘肃省聚苯板外保温墙体设计与施工规程 甘肃省地方标准.pdf
- DB32T-核与辐射突发事件卫生应急处置技术规范 第3部分:现场流行病学调查及编制说明.pdf
- DB44T1430-2014 冷冻水产品流通冷链管理技术规范.pdf
- TCASME-监控系统安装与维护规范.pdf
- TCSAE-汽车远程升级(OTA)信息安全测试规范.pdf
- TJSSAE-智能网联汽车开放道路测试管理要求及编制说明.pdf
- TEERT-挥发性有机物污染治理设施工况自动监控技术规范.pdf
- TCASME-三跨连续节段梁悬浇施工技术规范.pdf
- DB36T-行政执法案卷评查规范编制说明.pdf
最近下载
- (完整版)初三化学方程式大全.pdf
- 卫健委临检中心 15项临床检验质量控制指标——解读与应用.pptx VIP
- GB/T 14165-2008_金属和合金 大气腐蚀试验 现场试验的一般要求.pdf
- NB∕T11502-2024光伏光热一体组件和空气源热泵联合热水系统通用技术条件.pdf
- 抖音粉丝群体数据分析报告.pptx
- 【国家标准】QBT 3826-1999 轻工产品金属镀层和化学处理层的耐腐蚀试验方法 中性盐雾试验(NSS)法.pdf
- 足部特效反射区疗法一览表 附足底穴位图.doc
- 按次收费合同5篇.docx VIP
- 棋类运动协会章程.docx
- 口腔科的2024年工作总结6篇.docx VIP
文档评论(0)