- 1、本文档共121页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十六讲聚类分析与判别分析 第一部分 上一讲回顾 第二部分 聚类分析概念 第三部分 聚类分析的SPSS过程 第四部分 判别分析 1、回归分析及模型 2、线性回归 3、线性回归SPSS过程 4、曲线估计 第二部分 聚类分析概念 俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。 结构 一、分类 二、什么是聚类分析 三、如何度量远近 四、两个距离概念 分类 聚类分析有 1、系统聚类法 2、有序样品聚类法 3、动态聚类法 4、模糊聚类法 5、图论聚类法 6、聚类预报法等 (注:一般用的是系统聚类法。) 什么是聚类分析 1、聚类分析起源于分类学。在考古的分类学中,人们主要依靠经验和专业知识事项分类,形成数值分类学。 例子:对我国30个省市自治区独立核算工业企业经济效益的分析;对某些大城市物价指数考核等。 (注:值得提出的是将聚类分析和其他方法联系起来使用,如判别分析、主成分分析、回归分析等效果更好。) 什么是聚类分析 2、聚类分析是根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 根据分类对象的不同, ①、分为样品(观测量)聚类 ②、变量聚类两种 样品聚类: 对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)。 变量聚类: 找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。 什么是聚类分析 比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类。当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。 本部分主要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。 如何度量远近? 如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。 如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。 三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。 如何度量远近? 判断关系方法 1、一种方法用相似系数 2、另一种方法将一个样本看作是P维空间的一个点,并在空间定义距离,距离越近的点归为一类。 变量类型:scale、nominal、0rdinal。 问:聚类分析与相关分析和距离分析是否有关? 两个距离概念 按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。 1、点间距离的计算方法主要有: 欧氏距离(Euclidean distance) 平方欧氏距离(Squared Euclidean distance) Block距离(Block distance) Chebychev距离(Chebychev distance) 马氏距离(Minkovski distance) 最常用的是平方欧氏距离 类和类之间的距离 由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离。 类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。 备注 在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。 另外还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。 相似性的度量(样本点间距离的计算方法) 相似性的度量(变量相似系数的计算方法) 类间距离的计算方法 类间距离的计算方法 Centroid clustering(重心法)—用两个类别的重心之间的距离来表示两个类别之间的距离 between-groups linkage(组间平均距离法)—SPSS的默认方法。是用两个类别中间各
文档评论(0)