聚类分析(朱艳科).pdf

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析(朱艳科)

聚类分析 一、导言 在古老的分类学中,人们主要靠经验和专业知识,很少利用数学。随着生产技术和科学 的发展,分类越来越细,以至有时光凭经验和专业知识还不能进行确切分类,于是统计这个 有用的工具逐渐被引进分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法 有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐地分离 出聚类分析这个新的分支。 我们认为,所研究的样品或指标(变量)之间存在着程序不同的相似性(亲疏关系)。 于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统 计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类, 把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类……关系密切的聚合 到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标) 都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分 类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出 来。 在经济、社会、人口研究中,存在大量分类研究、构造分类模式的问题。例如在经济研 究中,为了研究不同地区城镇居民生活中的收入及消费状况,往往需要划分为不同的类型去 研究;在人口研究中,需要构造人口生育分类模式、人口死亡分类函数,以此来研究人口的 生育和死亡规律。过去人们主要靠经验和专业知识,做定性的分类处理,致使许多分类带有 主观性和任意性,不能很好地揭示客观事物内在的本质差别和联系,特别是对于多因素、多 指标的分类问题,定性分类更难以实现准确分类。 聚类分析不仅可以用来对样品进行分类,也可以用来对变量进行分类。对样品的分类常 称为 Q 型聚类分析,对变量的分类常称为 R 型聚类分析。与多元分析的其他方法相比,聚 类分析的方法是很粗糙的,理论上还不完善,但由于它以能解决许多实际问题,所以很受人 们的重视,同回归分析、判别分析一起被称为多元分析的三大方法。 二、方法简介 1、聚类分析入门 聚类分析的实质就是按照距离的远近将数据分为若干个类别,以使类别内数据的“差异” 尽可能小,类别间“差异”尽可能大。因此,在进行聚类分析时重点要明确以下一些问题: 1 (1)、所用的变量类型 变量可以被分成两类,一类是分类变量(诸如民族、性别等),另一类是连续性变量(诸 如身高、销售收入等)。这两类变量在聚类时常用的距离测量方式完全不同,如连续性变量 2 一般使用欧氏平方距离,而分类变量则使用χ 作为距离指标。因此,多数传统聚类方法只 能对单一种类的变量进行分析,如果数据中同时有两类变量,则或者只采用连续性变量进行 分析,将分类变量用于结果的描述和验证;或者将分类变量按照哑变量的方式拆分成多个二 分类变量,然后按照连续性变量的方式进行分析。不过,近年来新发展出的一些智能聚类方 法已经可以很好的同时分析这两种变量,两步聚类就是其中的典型代表。 (2)、聚类方法的选择 传统的聚类方法大致可以分为两大类,一类是层次聚类法(Hierarchical ),另一类是重 新定位聚类法(Relocation),也称非层次聚类法。各种聚类方法分别有着不同的适用条件,对 于不同数据会有不同的表现,很难有统一的标准说明什么时候应该选用什么样的方法。涉及 每种方法的细节在后面的段落里会有详细的介绍。 (3 )、距离的定义 在聚类分析中最重要的问题就是如何描述“差异”,通常的作法是通过距离或者相似的 方式来描述。统计学家发明了各种各样描述距离和相似性的方法,在 SPSS 提供的距离和相 似性度量就有 30 余种这多。而在统计学中最常用的距离表达是欧几里得距离,对于两条数 据 (x , y ,z ) 和(x , y ,z ) ,欧几里得距离的计算公式是: 1 1 1 2 2 2 Euclid (1, 2) (x =−x )2 +( y −y )2 +(z −z )2 1 2 1 2 1 2 但是在聚类分析中往往会使用欧几里得距离的平方来度量距离,大多数的聚类过程

您可能关注的文档

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档