- 1、本文档共35页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
五 聚类分析
本章内容 9.1 聚类分析的一般问题 9.2 层次聚类 9.3 K-Means聚类 聚类分析中,个体之间的“亲疏程度”是极为重要的,它将直接影响最终的聚类结果。对“亲疏”程度的测度一般有两个角度:第一,个体间的相似程度;第二,个体间的差异程度。衡量个体间的相似程度通常可采用简单相关系数等,个体间的差异程度通常通过某种距离来测度。 为定义个体间的距离应先将每个样本数据看成k维空间的一个点,通常,点与点之间的距离越小,意味着他们越“亲密”,越有可能聚成一类,点与点之间的距离越大,意味着他们越“疏远”,越有可能分别属于不同的类。 例:下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面的平均得分,现希望根据这批数据将五座商场分类。 2、计数变量个体间距离的计算方式 卡方(Chi-Square measure)距离 Phi方(Phi-Square measure)距离 3、二值(Binary)变量个体间距离的计算方式 简单匹配系数(Simple Matching) 雅科比系数(Jaccard) 9.3 K-Means聚类 9.3.1 K-Means聚类分析的核心步骤 K-Means聚类也称快速聚类,仍将数据看成k维空间上的点,仍以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率,其核心步骤是: 第一,指定聚类数目K 第二,确定K个初始类中心 SPSS中初始类中心的指定方式有两种:一是用户指定方式;二是系统指定方式。 第三,根据距离最近原则进行分类 依次计算每个样本数据点到K个类中心点的欧式距离,并按距K个类中心点距离最短的原则将所有样本分成K类。 第四,重新确定K个类中心 中心点的确定原则是,依次计算各类中k个变量的均值,并以均值点作为K个类的中心点。 第五,判断是否已满足中止聚类分析的条件 条件有两个:一是迭代次数(SPSS默认为10);二是类中心点偏移程度,即新确定的类中心点距上个类中心点的最大偏移量小于指定的量(SPSS默认为0.02)时中止聚类。 9.3.2 K-Means聚类分析的操作步骤 1.选择选项Analyze-Classify-K-Means Cluster,打开主窗口。 2.选定参与K-Means聚类的变量放入Variables框中。 3.选择一个字符型变量作为标记变量放入Label Cases框中,增加分析结果的可读性。 4.在Number of Clusters框中输入聚类数目,该数应小于样本数。 5.如果用户自行指定初始类中心点,则单击Centers按钮,并在Read initial from框后给出存放初始类中心的SPSS数据文件名;否则本步可略去。 6.在Method框中指定聚类过程是否调整类中心点。其中,Iterate and classify表示在聚类分析的每一步都重新确定类中心点(SPSS默认);Classify only表示聚类分析过程中类中心点始终为初始类中心点,此时仅进行一次迭代。 7.单击Iterate按钮确定中止聚类的条件。在Maximum iterations框后输入最大迭代次数,在Convergence criterion框后输入类中心的偏移量。另外,Use running means选项,选中表示每当一个样本被分配到一类时便立即重新计算新的类中心点,此时类中心点与样本分配的前后顺序有关;不选该项表示只有当完成了所有样本的类分配后再计算类中心,该方式可节省运算时间,通常不选中该选项。 8.单击Save按钮将聚类分析的部分结果以SPSS变量的形式保存到数据编辑窗口中,其中Cluster membership表示保存样本所属类的类号;Distance from cluster center表示保存样本距各自类中心点的距离。 9.单击Option按钮确定输出哪些相关分析结果和缺失值的处理方式。Statistics框中,Initial cluster centers表示输出初始类中心点;ANOVA table表示以聚类分析产生的类为控制变量,以k个变量为观测变量进行单因素方差分析,并输出各个变量的方差分析表;Cluster information for each case表示输出样本分类信息及距所属类中心点的距离。 至此完成了K-Means聚类分析的全部操作。 9.3.3 K-Means聚类分析应用举例 用2001年全国31个省市自治区各类小康好人现代化指数的数据,对地区进行K-Means聚类分析,要求分成3类,初始类中心点由SPSS自行确定。 Thank you * *
文档评论(0)