第10章_SPSS的聚类分析.ppt

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第10章_SPSS的聚类分析

第十章 SPSS的聚类分析 本章内容 10.1 聚类分析的一般问题 10.2 层次聚类 10.3 K-Means聚类 聚类分析中,个体之间的“亲疏程度”是极为重要的,它将直接影响最终的聚类结果。对“亲疏”程度的测度一般有两个角度:第一,个体间的相似程度;第二,个体间的差异程度。衡量个体间的相似程度通常可采用简单相关系数等,个体间的差异程度通常通过某种距离来测度。 为定义个体间的距离应先将每个样本数据看成k维空间的一个点,通常,点与点之间的距离越小,意味着他们越“亲密”,越有可能聚成一类,点与点之间的距离越大,意味着他们越“疏远”,越有可能分别属于不同的类。 例:下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面的平均得分,现希望根据这批数据将五座商场分类。 2、计数变量个体间距离的计算方式 卡方(Chi-Square measure)距离 Phi方(Phi-Square measure)距离 3、二值(Binary)变量个体间距离的计算方式 简单匹配系数(Simple Matching) 雅科比系数(Jaccard) 品质型个体间的距离 根据临床表现研究病人是否有类似的病 雅科比(Jaccard)系数:适用二值变量 品质型个体间的距离 Jaccard系数举例:根据临床表现研究病人是否有类似的病 Q型聚类:对样本进行聚类,使具有相似特征的样本聚集在一起,差异性大的样本分离开来 R型聚类:对变量进行聚类,使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。 分解方式聚类: 首先,所有个体都属一大类; 然后,按照某种方法度量所有个体间的亲疏程度,将大类中彼此间最“疏远”的个体分离出去,形成两类; 接下来,再次度量类中剩余个体间的亲疏程度,并将最疏远的个体再分离出去; 重复上述过程,不断进行类分解,直到所有个体自成一类为止。可见,这种聚类方式对包含n个个体的大类通过n-1步可分解成n个个体。 10.2.2 个体与小类、小类与小类间“亲疏程度”的度量方法 SPSS中提供了多种度量个体与小类、小类与小类间“亲疏程度”的方法。与个体间“亲疏程度”的测度方法类似,应首先定义个体与小类、小类与小类的距离。距离小的关系亲密,距离大的关系疏远。这里的距离是在个体间距离的基础上定义的,常见的距离有: 10.3 K-Means聚类 10.3.1 K-Means聚类分析的核心步骤 K-Means聚类也称快速聚类,仍将数据看成k维空间上的点,仍以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率,其核心步骤是: 第一,指定聚类数目K 第二,确定K个初始类中心 SPSS中初始类中心的指定方式有两种:一是用户指定方式;二是系统指定方式。 第三,根据距离最近原则进行分类 依次计算每个样本数据点到K个类中心点的欧式距离,并按距K个类中心点距离最短的原则将所有样本分成K类。 第四,重新确定K个类中心 中心点的确定原则是,依次计算各类中k个变量的均值,并以均值点作为K个类的中心点。 第五,判断是否已满足中止聚类分析的条件 条件有两个:一是迭代次数(SPSS默认为10);二是类中心点偏移程度,即新确定的类中心点距上个类中心点的最大偏移量小于指定的量(SPSS默认为0.02)时中止聚类。 10.3.2 K-Means聚类分析的操作步骤 1.选择选项Analyze-Classify-K-Means Cluster,打开主窗口。 2.选定参与K-Means聚类的变量放入Variables框中。 3.选择一个字符型变量作为标记变量放入Label Cases框中,增加分析结果的可读性。 4.在Number of Clusters框中输入聚类数目,该数应小于样本数。 5.如果用户自行指定初始类中心点,则单击Centers按钮,并在Read initial from框后给出存放初始类中心的SPSS数据文件名;否则本步可略去。 6.在Method框中指定聚类过程是否调整类中心点。其中,Iterate and classify表示在聚类分析的每一步都重新确定类中心点(SPSS默认);Classify only表示聚类分析过程中类中心点始终为初始类中心点,此时仅进行一次迭代。 7.单击Iterate按钮确定中止聚类的条件。在Maximum iterations框后输入最大迭代次数,在Convergence criterion框后输入类中心的偏移量。另外,Use running means选项,选中表示每当一个样本

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档