- 1、本文档共30页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章 聚类分析和判别分析 俗话说“物以类聚,人以群分”,在现实生活中,为了更好的认识事物,人们往往需要根据事物的属性对事物进行分类,分类是人类认识客观世界的一种重要方法。在社会生活的各个方面和科学研究的各个领域都存在着大量的分类问题。 在实际生活中经常需要使用聚类分析对事物进行分类,在总体类别已知时需要使用判别分析对研究对象进行归类。在SPSS中其菜单打开方式为:选择“分析”“分类”命令,打开如图所示的“分类”菜单。 8.1 聚类分析基本原理 聚类分析作为一种重要的分类方法,其实质在于通过研究对象之间的亲疏关系将相似的对象划分为一类,不相似的对象划分到不同的类别当中。在本节中将介绍聚类分析的概念、计算方法和聚类结果的评价等。 8.1.1 聚类分析简介 聚类分析(Cluster Analysis)是根据事物本身的特征通过统计方法对事物进行分类的多元分析方法,可以通过数据建模达到简化数据的目的。聚类分析也称为分类分析、数值分类或集群分析等。根据分类对象的不同,聚类分析可分为样本聚类和变量聚类两种。 8.1.2 聚类分析的计算 在聚类分析过程中,需要区分为不同的类,事物是怎样划分到不同的类别当中的呢?判断不同事物是否归于一类依据的是事物之间的相似性。事物相似性的度量标准一般有两种:距离和相似性系数,距离一般用来度量样本之间的相似性,而相似性系数一般是用来度量变量之间的相似性。 1.距离 距离的计算根据观测指标数据类型的不同可以分为两种情况:如果观测指标是非连续数据,需要采用卡方分析等计算方法;如果观测值标是连续数据,则可以采用以下几种算法: (1)明氏距离 (2)马氏距离 (3)兰氏距离 (4)自定义距离 2.相似性系数 前面提到,聚类分析不仅可以对样本进行聚类,而且还可以对变量进行聚类,当对变量进行聚类时,考察变量之间关系的指标一般采用相似性系数来表示。相似性系数是描述测量指标之间相关程度的指标,取值范围为[-1,1],相似系数越大,变量之间的相似性就越高。根据研究目的的不同,有时只需要考察相关系数绝对值的大小,有时还要考虑到相关的方向,即相关系数的正负。聚类时,相似的变量归入一类,不相似的变量归到不同的类。相似性系数的计算方法常见的有积差相关系数和夹角余弦等。 积差相关系数: 8.1.3 聚类结果的评价 聚类分析是一个探索性的过程,在使用聚类分析过程中,除了要根据不同的数据类型选择其最适合的聚类方法外,还往往需要结合数据结构和对聚类样本或变量的先验经验,并且不断探索和尝试才能得到比较好的聚类结果。这里简要介绍一些判断类别数量是否合理的标准和最终分类应该符合的要求作为参考。 1.规定一个阈值T 2.查看样本的散点图 3.使用统计量 8.2.1 二阶聚类的基本原理 顾名思义,二阶聚类是指聚类过程是分为两步进行的,故又称为两步聚类。二阶聚类发展较晚,但由于其能同时处理连续数据和离散数据,同时还可以自动确定最佳聚类个数,加上处理速度快等优点,使它从一经提出就在多个领域得到推广,并受到越来越多用户的青睐。 二阶聚类主要分为以下两个步骤: (1)预分类 (2)正式聚类 8.2.2 二阶聚类的操作过程 在SPSS中二阶聚类的操作过程如下: (1)打开或建立数据文件。 (2)选择“分析”“分类”“两步聚类”命令,打开“二阶聚类分析”对话框,如图所示。 (3)选择变量 (4)选择距离度量标准 (5)连续变量计数 (6)设定聚类数量 (7)选择聚类准则 (8)选项设置 (9)输出设置 (10)设置完成后,单击“确定”按钮,执行操作,输出结果。 8.2.3 实例分析:普通高等学校(机构)教职工队伍构成(1) 教师队伍的构成影响和制约着高等教育的质量和发展。现准备根据2008年中国部分省份普通高等学校(机构)教职工队伍构成情况对这些地区进行分类。收集到的资料包括:正高级职称人数(单位:人)、副高级职称人数、中级职称人数、初级职称人数和无职称人数。 1.操作过程 2.结果分析 8.3 K-均值聚类分析 K-均值聚类(K-Means-Cluster)是一种快速样本聚类方法,在聚类个数已知的情况下,特别适合于对大样本数据进行分析。在本节将介绍K-均值聚类的基本原理和操作过程。 8.3.1 K-均值聚类的基本原理 K-均值聚类(K-Means-Cluster)又称快速样本聚类或逐步样本聚类,是先将样本数据进行初始分类,然后根据中心点逐步调整,直至得到最终分类。这种聚类方法具有计算量大、对系统要求低、占用内存少、处理速度快的特点,因此特别适合处理大样本数据。但是这种聚类方法只适于对样本的聚类,而不能对变量进行聚类。K-均值聚类分析的基本步骤如下: (1)确定聚类数量。 (2)确定初始类中心坐标。 (3)
文档评论(0)