- 1、本文档共43页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十章 聚类和判别分析 主要内容 10.0 聚类与判别分析概述 10.1两步聚类 10.2 快速聚类 10.3 分层聚类 10.4 判别分析 10.0 聚类与判别分析概述 (1) 聚类分析 聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本又聚合为一类。 (2) 判别分析 判别分析是判别样本所属类型的一种统计方法。 (3) 二者区别 不同之处在于,判别分析是在已知研究对象分为若干类型(或组别)并已取得各种类型的一批已知样本的观测量数据的基础上,根据某些准则建立判别式,然后对未知类型的样本进行差别分析。 主要内容 10.0 聚类与判别分析概述 10.1两步聚类 10.2 快速聚类 10.3 分层聚类 10.4 判别分析 10.1两步聚类 基本概念 两步聚类(TwoStep Cluster)是一个探索性的分析工具,为揭示自然的分类或分组而设计,是数据集内部的而不是外观上的分类。它是一种新型的分层聚类算法(Hierarchical Algorithms),目前主要应用到数据挖掘(Data Mining)和多元数据统计的交叉领域——模式分类中。该过程主要有以下几个特点: 分类变量和连续变量均可以参与两步聚类分析; 该过程可以自动确定分类数; 可以高效率地分析大数据集; 用户可以自己定制用于运算的内存容量。 10.1两步聚类 统计原理 两步法的功能非常强大,而原理又较为复杂。他在聚类过程中除了使用传统的欧氏距离外,为了处理分类变量和连续变量,它用似然距离测度,它要求模型中的变量是独立的,分类变量是多项式分布,连续变量是正态分布的。分类变量和连续变量均可以参与两步聚类分析。 分析步骤 第1步 预聚类:对每个观测变量考察一遍,确定类中心。根据相近者为同一类的原则,计算距离并把与类中心距离最小的观测量分到相应的各类中去。这个过程称为构建一个分类的特征树(CF)。 第2步 正式聚类:使用凝聚算法对特征树的叶节点分组,凝聚算法可用来产生一个结果范围。 10.1两步聚类 SPSS实现举例 【例10-1】1985年中国学生体质调查,各省19-22岁年龄组城市男学生身体形态指标的平均值,身高,坐高,体重,胸围,肩宽及骨盆宽的数据如下表所示,试根据身体形态指标进行样本聚类分析。 10.1两步聚类 SPSS实现举例 第1步 分析:本例采用两阶段聚类分析。 第2步 数据组织:按如上表的表头定义变量,输入数据并保存。 第3步 两步聚类设置:按Analyze→Classify→TwoStep Cluster打开TwoStep Cluster Analyze主对话框,并按如下图所示设置。 10.1两步聚类 打开Plot和Output对话框,并作相应设置。 第4步:主要结果及分析。 10.1两步聚类 10.1两步聚类 10.1两步聚类 主要内容 10.0 聚类与判别分析概述 10.1两步聚类 10.2 快速聚类 10.3 分层聚类 10.4 判别分析 10.2 快速聚类 基本概念 快速聚类是由用户指定类别数的大样本资料的逐步聚类分析。它先对数据进行初始分类,然后逐步调整,得到最终分类数。快速聚类分析的实质是K-Means聚类。分类变量和连续变量均可以参与两步聚类分析。 (2) 统计原理 如果选择了n个数值型变量参与聚类分析,最后要求聚类数为k。 由系统首先选择k个观测量(也可以是用户指定)作为聚类的目标,n个变量组成n维空间。每个观测量在n维空间中是一个点。K个事先选定的观测量就是k个聚类中心,也称为初始类中心。 按照距这几个类中心的距离最小的原则把观测量分派到各类中心所在的类中去;形成第一次迭代形成的k类。 10.2 快速聚类 根据组成每一类的观测量计算每个变量的均值,每一类中的n个均值在n维空间中又形成k个点,这就是第二次迭代的类中心。 按照这种方法迭代下去,直到达到指定 的迭代次数或达到中止迭代的判据要求时,迭代就停止了,聚类过程也就结束了。 (3) 分析步骤 第1步 指定聚类数目k; 第2步 确定k个初始类中心; 第3步 根据距离最近原则进行分类; 第4步 重新确定k个类中心; 第5步 迭代计算。 10.2 快速聚类 (4) SPSS实现举例 【例10-2】测量12名大学生对《高等数学》的心理状况和学习效果,主要包括四个因素:学习动机、学习态度、自我感觉、学习效果,具体数据如下表所示。试将该12名学生分成3类以分析不同心理状况下学生的学习效果。 10.
文档评论(0)