- 1、本文档共112页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[经济学]聚类分析 多元统计分析课件人大何晓群
* 中国人民大学六西格玛质量管理研究中心 * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 三、模糊聚类法 继续使用上面的例子,希望将亚洲国家或地区分成3类进行分析研究。这里我们使用S-Plus2000软件。 进入S-Plus软件以后,首先打开上述数据文件,可以用File→Import Data→From File,然后选择数据形式为*.sav(SPSS数据)。打开数据后,使用Statistics→Cluster Analysis→ Fuzzy Partitioning实现模糊聚类分析。 在Variables中选择Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值)进行Q型聚类分析,即对国家或地区进行聚类。在Option选项中指定类的个数为3。选择好变量以后,点“OK”就可以得到结果。我们还选择了Plot选项中的Cluster Plot(分类图)和Silhouette Plot(侧影图)两个图输出。得到以下结果。 * 中国人民大学六西格玛质量管理研究中心 * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 * 中国人民大学六西格玛质量管理研究中心 * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 * 中国人民大学六西格玛质量管理研究中心 * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 表3.15是各类的分类系数,由于我们指定分为3类,某个样品在这3类中的某类上系数最大,则将该样品聚为该类。比如第1个样品在第1类的系数最大,说明第1个样品在第1类中。 表3.16是聚类结果。由结果可以看出,与K-均值快速聚类得到的结果是完全一致的。 图3.12是样品的分类图,由图可以看出,各类很明显地被分开。 图3.13是样品的侧影图,类似于水平的冰柱图或者树形图,可以看出三类中,各类包含哪些样品。 我们看到此例中,由模糊聚类得到的结果与K-均值聚类得到的结果是一样的。同时我们应该看到这种分类带有较强的主观性,而且分类结果也比较粗糙。一般仅适合于对大量数据的快速聚类。 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究 目录 上页 下页 返回 结束 例3.5 城镇居民消费水平通常用表3.15中的八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是对指标聚类。原始数据列于表3.15。 将原始数据录入SPSS,并依次点击“Analyze”→ “Correlate” →“Bivariate”,打开Bivariate Correlations对话框,把八个变量选入Variables栏中,单击“OK”,得到这八个指标对应的相关系数,列于表3.16。 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究 目录 上页 下页 返回 结束 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究 目录 上页 下页 返回 结束 表3.16中最大的相关系数为r4,8=0.837,将G4和G8并成一新类G9,然后计算G9与各类的相关系数,再找最大的相关系数,每次缩小一类得图3-17。 我们可以看出全国城镇居民得消费结构大致可以分为三个方面,一类是各种副食、日用品及交通通信、文化教育和住房等支出,这是在消费结构中起主导作用的方面;其次是居民购买烟、酒、饮料及着装支出;粮食和水电燃料是两项很重要的消费指标,但目前在城镇居民的消费中占的比例较小,可将它们归并为同一类。 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究 目录 上页 下页 返回 结束 上面介绍的几种系统聚类方法,并类的原则和步骤基本一致,所不同的是类与类的距离有不同的定义。其实可以把这几种方法统一起来,有利于在计算机上灵活地选择更有意义的谱系图。 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究 目录 上页 下页 返回 结束 对例3.5,我们采用欧氏距离分别用类平均法、最短距离法、最长距离法把31个省市分类。 类平均法聚类在SPSS中的操作为:点选“Analyze”→“Classify” →“Hierarchical Cluster”,打开Hierarchical Cluster Analysis对话框,将八个聚类指标选入Variables栏中,将表示地区的变量选入L
文档评论(0)