网站大量收购闲置独家精品文档,联系QQ:2885784924

东北农业大学理学院多元统计分析课件 第三章(3).ppt

东北农业大学理学院多元统计分析课件 第三章(3).ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
zf zf 第三章 聚类分析 第三节 3.5 非系统聚类法 也叫做逐步聚类法、动态聚类法、k-均值聚类法、或快速聚类法。——事先要确定分多少类 假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类种子”(SPSS软件自动为你选种子);也就是说,把这3个点作为三类中每一类的基石。 然后,根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来的“种子”就没用了),重新按照距离分类。 如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同一类中呢。下面用饮料例的数据来做k-均值聚类。 例:假定要把例1中16种饮料分成3类。 根据需要,可以输出哪些点分在一起。结果是: 第一类为饮料1、10; 第二类为饮料2、4、8、11、12、13、14; 第三类为剩下的饮料3、5、6、7、9、15、16。 K-均值聚类SPSS处理: 1、Analyze-Classify-K-Menas Cluster 2、Variables:calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(价格) 3、Number of Clusters处选择3(想要分的类数) 4、如果想要知道哪种饮料分到哪类,则选Save,再选Cluster Membership等 注意: k-均值聚类只能做Q型聚类,如要做R型聚类,需要把数据阵进行转置。 聚类分析步骤: * cxt * 3.6 K-均值聚类 3.7 计算步骤和上机实现 3.8 社会经济案例研究 确定待研究的问题 选择聚类用的距离或相似系数 选择聚类方法 确定类别的个数 评估聚类分析的效果 解释聚类分析的结果 1.先确定待研究的问题和待分类的对象 1.所选的方法与所选的距离是有关的 2.小样本与大样本 3.两者的串联使用 1.聚类时多采用距离统计量 2.变量聚类时多采用相似系数统计量 3.不同度量单位的影响 透过比较各类别的中心,来识别各个类别的意义,从而给各个类别命名 1.相关的理论或实践上的需要 2.系统聚类法 3.非系统聚类法 * * 计算步骤与上机实践 目录 上页 下页 返回 结束 在这个数据文件中,我们选择的变量(Variables(s))有Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值),以Country(国家或地区)来标识(Label Cases)本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家进行聚类。 这里我们将原始变量标准化(在Method选项下Transform Values的Standardize空白框内,选择Z Scores),在Statistics选项中选择Agglomeration Schedule,聚类方法选择组内联结法(Within-group linkage),计算距离选择平方欧氏距离,输出冰柱图和树状聚类图。得到的结果如下: * * 聚类分析计算步骤与上机实践 目录 上页 下页 返回 结束 * * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 * * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 将表3-8的聚合系数利用Excel作出聚合系数随分类数变化曲线,如图3-13. * * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 * * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 输出结果中,表3.9表示接近度矩阵,是反映样品之间相似性或者相异性的矩阵。本例中由于计算距离使用的是平方欧氏距离,所以样品间距离越大,样品越相异,如果我们计算距离选择Pearson相关系数,则接近度矩阵是相似性矩阵。由表中矩阵可以看出,Bangladesh(孟加拉国)与Cambodia(柬埔寨)的距离是最小的,因此它们最先聚为一类。 图3.9是冰柱图,也是反映样品聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样品。比如我们希望分为三类,最左边的类数应选3,每个样品右边都有一列X,如果某个样品右边的X个数少于3,那么它和前面多于3个X的样品聚为一类,如此下去,直到找到全部三类为止。例如,Hong Kong右边的列只有两个X

您可能关注的文档

文档评论(0)

ormition + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档