第9章-SPSS的聚类分析课件.pptVIP

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * * * * * * * 9、单击Plot按钮指定输出哪种聚类分析图。 绘图 子对话框 Dendrogram选项表示输出聚类分析树形图;在Icicle框中指定输出冰挂图,其中,All clusters表示输出聚类分析每个阶段的冰挂图,Specified range of clusters表示只输出某个阶段的冰挂图,输入从第几步开始,到第几步结束,中间间隔几步;在Orientation框中指定如何显示冰挂图,其中,Vertical表示纵向显示,Horizontal表示横向水平显示。 树形图以躺倒树的形式展现了聚类分析中的每一次类合并的情况。SPSS自动将各类间的距离映射到0~25之间,并将凝聚过程近似地表示在图上。 输出 树状图 输出 冰挂图 10、单击Save按钮可以将聚类分析的结果以变量的形式保存到数据编辑窗口中。生成的变量名为clun_m(如clu2_1),其中n表示类数(如2),m表示是第m次分析(如1)。 由于不同的距离计算方法会产生不同的聚类分析结果,即使聚成n类,同一样本的类归属也会因计算方法的不同而不同。因此实际分析中应反复尝试以最终得到符合实际的合理解,并保存于SPSS变量中。 9.2.4 层次聚类的应用举例 1、利用31个省市自治区小康和现代化指数数据进行层次聚类分析。 利用SPSS层次聚类Q型聚类对31个省市自治区进行分类分析。其中个体距离采用平方欧式距离,类间距离采用平均组间链锁距离,由于数据不存在数量级上的差异,因此无需进行进行标准化处理。 2、利用裁判打分数据进行聚类分析。 聚类分析(小康指数).sav 基本操作 输出结果 聚类表 输出结果 树状图 输出结果 冰挂图 作业1 书上第320页,裁判打分的层次聚类分析,分析各国裁判打分标准是否有相似性,若选出4个代表性的裁判应如何选? 要求:选择正确的聚类类型,其中变量个体距离采用欧式距离,类间距离采用平均组间链锁距离。输出结果应包括树状图、冰挂图、凝聚状态表。 聚类分析(裁判打分).sav 复相关系数的计算方法 复相关系数是测量一个变量与其他多个变量之间线性相关程度的指标。它不能直接测算,只能采取一定的方法进行间接测算。 为了测定一个变量y与其他多个变量X1,X2, ...,Xk之间的相关系数,可以考虑构造一个关于X1,X2,...,Xk的线性组合,通过线性回归方法计算该线性组合与y之间的简单相关系数(即回归结果中的判决系数R)作为变量y与X1,X2, ...,Xk之间的复相关系数。 提示: 9.3 K-Means聚类 9.3.1 K-Means聚类分析的核心步骤 9.3.2 K-Means聚类分析的操作步骤 9.3.3 K-Means聚类分析应用举例 9.3.1 K-Means聚类分析的核心步骤 K-Means聚类也称快速聚类,仍将数据看成k维空间上的点,仍以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率,其核心步骤是: 第一,指定聚类数目K 第二,确定K个初始类中心 SPSS中初始类中心的指定方式有两种:一是用户指定方式;二是系统指定方式。 第三,根据距离最近原则进行分类 依次计算每个样本数据点到K个类中心点的欧式距离,并按距K个类中心点距离最短的原则将所有样本分成K类。 第四,重新确定K个类中心 中心点的确定原则是,依次计算各类中k个变量的均值,并以均值点作为K个类的中心点。 第五,判断是否已满足中止聚类分析的条件 条件有两个:一是迭代次数(SPSS默认为10);二是类中心点偏移程度,即新确定的类中心点距上个类中心点的最大偏移量小于指定的量(SPSS默认为0.02)时中止聚类。 9.3.2 K-Means聚类分析的操作步骤 选择选项分析? 分类?K-均值聚类,打开主窗口. 聚类分析(小康指数).sav 主对话框 选代 子对话框 选项 子对话框 2.选定参与K-Means聚类的变量放入Variables框中。 3.选择一个字符型变量作为标记变量放入Label Cases框中,增加分析结果的可读性。 4.在Number of Clusters框中输入聚类数目,该数应小于样本数。 5.如果用户自行指定初始类中心点,则单击Centers按钮,并在Read initial from框后给出存放初始类中心的SPSS数据文件名;否则本步可略去。 6.在Method框中指定聚类过程是否调整类中心点。其中,Iterate and classify表示在聚类分析的每一步都重新确定类中心点(SPSS默认);Classify only表示聚

文档评论(0)

mwk365 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档