- 1、本文档共40页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第18章 聚类分析 中国疾病预防控制中心 学习目标 了解聚类分析的基本思想; 了解聚类分析的一些常见统计量; 掌握聚类分析的基本方法; 通过实例练习掌握聚类分析的SAS过程步。 概述 聚类分析是将随机现象归类的统计学方法,已广泛应用于医学科学研究之中。聚类分析也称群分析、点群分析,他是研究分类的一种多元统计方法。 例如,我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;国家之间根据其发展水平可以划分为发达国家、发展中国家; 概述 这些问题的本质就是希望能找到一种合理的方法将一批研究对象按其所属特性分门别类。统计学上用于解决这种分类问题的主要方法是聚类分析法和判别分析法。这一章主要讨论聚类分析。 聚类分析的基本思想 聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。 聚类分析的基本思想 把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。由此得知,聚类分析的任务有两个,第一就是寻找合理的度量事物相似性的统计量;第二是寻找合理的分类方法。 聚类分析的基本思想 在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理,又称为样本聚类分析;R型聚类分析是对指标进行分类处理,称为指标聚类分析。对样品进行聚类的目的是将分类不明确的样品按性质相似程度分为若干组,从而发现同类样品的共性和不同样品间的差异。对指标进行聚类的目的是将分类不明确的指标按性质相似程度分成若干组,从而在尽量不损失信息的条件下,用一组少量的指标来代替原来的多个指标。 聚类分析的基本思想 R型聚类分析的主要作用是:①不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个指标组合之间的亲疏程度;②根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。 Q型聚类分析的作用是:①可以综合利用多个变量的信息对样本进行分类;②分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;聚类分析所得到的结果比传统分类方法更细致、全面、合理。 聚类分析的基本思想 例如在医生医疗质量研究中,有N个医生参加医疗质量评比,每一个医生有K个医疗质量指标被记录。利用聚类分析可以将N个医生按其医疗质量的优劣分成几类,或者把K个医疗质量指标所反映的问题侧重点不同分成几类。前者是聚类分析中的样品聚类,后者是指标聚类。 聚类分析的统计量 无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性度量的统计量。 聚类分析中用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的,前者用的统计量是距离系数,后者用的统计量是相似系数。距离系数的定义有很多,如欧式距离、极端距离、绝对距离等。相似系数的定义也很多,如相关系数、列联系数等。下面给出它们的计算公式。 距离 明氏距离 马氏距离 兰氏距离 类间距离 类间距离 最短距离法 最长距离法 重心距离法 平均距离法 中间距离法 Ward离均差平方和法 相关系数 相关系数是最容易理解的一种统计量,它就是统计中经常用的两变量之间的简单相关系数。在聚类分析中,相关系数用来描述两个指标之间的相似程度。 是第s个指标变量, 是第t个指标变量, 相关系数 两个指标变量和之间的相关系数是: 这是一个无量纲统计量。在指标聚类分析中,两个指标变量之间的相关系数越大,说明这两个指标变量的性质越相似。 类间相似系数 夹角余弦 相关系数 聚类分析的方法 聚类分析的方法很多,本章仅介绍常用的系统聚类法和逐步聚类法。系统聚类法适用于小样本的样本聚类或指标聚类。逐步聚类法适用于大样本的样本聚类。对于小样本的样本聚类,如果采用逐步聚类法,聚类结果将与样本的顺序有关。 聚类指标 一般用系统聚类法来聚类指标,它的基本思想是先把k个指标看成一类;然后用主成分分析法将它分解成若干类,分类的原则是使得每一类的类内指标总变异尽可能多地被该类的类成分所解释;如果每一类的类内指标总变异被类成分所解释的比例满足事先给出的要求,则聚类停止;否则,对比例小的类再继续进行分解,直到所有类的类内指标总变异被类成分所解释的比例都满足事先
文档评论(0)