网站大量收购闲置独家精品文档,联系QQ:2885784924

第十二讲--聚类分析和因子分析-spss.pptVIP

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十二讲--聚类分析和因子分析-spss

第十一讲 SPSS数据分析 聚类分析special for spss 层次聚类分析中的Q型聚类 层次聚类分析中的R型聚类 快速聚类分析 判别分析 +` 聚类分析---物以类聚。 特点:探索性的分析。在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。它能够将一批一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。 *不同于相关系数(变量之间的关系) 聚类分析:样本间的相关 层次聚类分析中的Q型(样本间:哪几个样本很像)聚类 根据样本之间的距离进行计算。 常用算法: 欧式距离 各个变量相减 再求和 欧式距离的平方(X2+X1)2+……. Chebychev距离 Block距离 Minkovsky距离 Customized距离 层次聚类分析中的Q型聚类 打开聚类1 分析---分类---层次聚类(系统聚类)---选择个案 层次聚类分析中的R型聚类 与Q型聚类不同的是, R型聚类计算的是变量之间的距离,而不是样本之间的距离。 打开聚类2 分析---分类---层次聚类(系统聚类)---选择变量 快速聚类分析 由于聚类分析对计算机要求很高,因此当出现大样本的情况下,层次聚类分析往往速度较慢,因此采用快速聚类分析。 快速聚类分析要求用户根据经验指定聚类最终形成多少种类。 快速聚类分析 打开聚类3 分析---分类---K均值聚类 因子分析 降维 主成分分析与因子分析的概念 需要与可能:在各个领域的科学研究中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加了问题分析的复杂性,同时对分析带来不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。 因此需要找到一个合理的方法,减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。因子分析就是这样一种降维的方法。 因子分析 用较少因子反映原始资料多个变量的信息。 特点: 1。因子变量的数量远少于原有的指标变量的数量。 2。因子变量不是对原有变量的取舍,而是对原有变量信息的重构。 3。因子变量之间不存在线性相关关系。 上式通过化简,可得: F=BX+ae X:因子变量 B:载荷矩阵 其中βij称为因子载荷,是第i个原有变量在第j个因子变量上的负载,即βi在第j个因子变量上的相对重要性。即βij绝对值越大,公共因子与原有变量关系越强。 由于实测的变量间存在一定的相关关系,因此有可能用较少数的综合指标分别综合存在于各变量中的各类信息,而综合指标之间彼此不相关,即各指标代表的信息不重叠。综合指标称为因子或主成分(提取几个因子),一般有两种方法:确定因子数量的因素(机器决定) 特征值1 累计贡献率0.8(新因子至少代表就因子80%以上的信息) 几个基本概念: 因子载荷:表示该因子对变量的影响程度,代表了因子和原先变量的相关系数。也称为变量在因子上的载荷。 旋转矩阵:对因子载荷进行旋转,使系数向0和1两极分化。(运算复杂),想让因子载荷矩阵做两极分化,看清楚哪个因子系数作用程度更大 因子得分系数:每一个变量在不同因子上的具体数据值。 成绩数据(student.sav) 100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。 因子变量分析步骤: 1。确定待分析的原有若干变量是否适合于因子分析。(检验方法:巴德迪特检验 ;kmo0.5-适合) 2。构造因子变量。 3。使用旋转使得因子变量更具有可解释性。 4。计算因子变量的得分。 因子分析 打开因子分析 分析---降维---因子分析 * * 因子分析要求(pm) F1-FM 是原有变量 X1-XP 是新变量 (因子变量) 建立原有因子和新因子的联系 重要结果分析 这里的Initial Eigenvalues就是特征值(数据相关阵的特征值)。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。 特征值的贡献还可以从SPSS的所谓碎石图看出 这里,第一个因子主要和语文、历史、英语三科有很强的正相关;而第二个因子主要和数学、物理、化学三科有很强的正相关。因

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档