第8章因子分析与聚类分析(含SPSS).PPT

第8章因子分析与聚类分析(含SPSS).PPT

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共55页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(三)聚类分析的几点说明 1、所选择的变量应符合聚类的要求 可根据实际工作经验和所研究问题的特征人为的选择变量,这些变量应该和分析的目标密切相关,反映分类对象的特征。 2、各变量的变量值不应有数量级上的差异 为了避免对变量单位选择的依赖,数据应当标准化。 3、各变量间不应有较强的线性相关关系 如果所选变量之间存在较高的线性关系,有两种处理方法:(1)首先进行变量聚类,从每类中选一代表性变量,再进行样本聚类;(2)进行主成分分析或因子分析,降维,使之成为不相关的新变量,再进行样本聚类。 二、聚类分析中“亲疏程度”的度量 (一)个体间“亲疏程度”的度量 聚类分析中,对“亲疏程度”的测度一般有两个角度:第一,个体之间的相似程度;第二,个体之间的差异程度。在SPSS中,对不同度量类型的数据采用了不同的测定亲疏程度的统计量。 1、定距型变量个体间距离的计算方式 通常有欧式距离(Euclidean distance)、平方欧式距离(Squared Euclidean distance)、夹角余弦(Cosine)距离、相关系数距离(Pearson correlation)、切比雪夫距离(Chebychev:Chebychev)、Block距离(City-Block )或Manhattan 距离、明考斯基距离(Minkowski)、用户自定义距离(Customized)等8种方法。这些方法分别适用于 型聚类和 型聚类 2、计数变量个体间距离的计算方式 如果所涉及的个变量都是计数(Count)的非连续变量,对计数变量的不相似性测度方法,是根据被计算的两个观测量或两个变量总频数计算其不相似性。期望值来自观测量或变量的独立模型。个体间距离的定量通常有卡方距离(Chi-Square measure) Phi 方距离(Phi-Square measure )两种方式: 3、二值变量个体间距离的计算方式 如果所涉及的个变量都是二值(Binary)变量,那么个体间距离的定义通常有简单匹配系数(Simple matching和雅科比系数(Jaccard)两种方式。 (二)个体与小类、小类与小类间亲疏程度的度量 在SPSS中提供了多种度量个体与小类、小类与小类间亲疏程度的方法,如最短距离法(Nearest neighbor)、最长距离法(Furthest neighbor)、中间距离法(Median clustering)、组间平均链锁法(Between-groups linkage)、组内平均链锁法(Within-groups linkage)、重心法(Centroid clustering)、离差平方和法(Ward‘s method)。 在一般情况下,用不同的方法聚类的结果是不会完全一致的。在实际应用中,一般采用以下两种处理方法:①根据分类问题本身的专业知识结合实际需要来选择分类方法,并确定分类个数;②多用几种分类方法去作,把结果中的共性提出来,对有争议的样本用判别分析去归类。 三、层次聚类在SPSS中的实现 1.建立或打开数据文件后,进入Analyze—Classify--Hierachical Cluster Analysis 主对话框,如图8-9所示。 图8-9 层次聚类对话框 2、把参与分析的变量选到Variable(s)框中。 3、把一个字符型变量作为标记变量选到Label Cases框中,它将大大增加聚类分析结果的可读性。 4、在Cluster框中选择聚类类型。其中Cases 项表示进行型聚类,Variables 项表示进行型聚类。 5、在Display框中选择输出内容。其中Statistics表示输出聚类分析的相关统计量,Plots表示输出聚类分析的相关图形。 6、单击Statistics按钮,选择要求输出的统计量,如图8-10所示。 图8-10 Statistics 对话框 (1) Agglomeration schedule 复选项,表示输出聚类分析的凝聚状态表。 (2) Proximity Matrix 复选项,表示输出个体间的距离矩阵。产生什么类型的矩阵取决于在Method 对话框中Measure 栏中的选择。 (3) Cluster Membership(类成员栏)选项,显示每个观测量被分派到的类或显示若干步凝聚过程。其中: ①None 选项,不显示类成员表,是系统默认值。 ②Single solution 选项,要求列出聚为一定类数的各观测量所属的类。

文档评论(0)

clz + 关注
实名认证
内容提供者

医师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月15日上传了医师资格证

1亿VIP精品文档

相关文档