- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用统计—聚类分析
聚类分析
聚类分析也称群分析、点群分析,他是研究分类的一种多元统计方法。
??? 例如,我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;国家之间根据其发展水平可以划分为发达国家、发展中国家;自然界生物可以分为动物和植物等等。这些就是一些分类。
那么分类根据什么分呢?
一、基本思想: 我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的 统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一 类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。
以下我们学习一种常用的分类法称作系统聚类法。
在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理,R型聚类分析是对变量进行分类处理。
R型聚类分析的主要作用是:
1、不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。
2、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。
Q型聚类分析的优点是:
1、可以综合利用多个变量的信息对样本进行分类;
2、分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;
3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。
为了进行聚类分析,首先我们定义样品间的距离。
二、距离
设有n个样品,p个指标,数据矩阵为
? 元素 表示第i个样品的第j个指标。
因每个样品有p个指标,故每个样品可以看成p维空间中的一个点,n个样品就构成p维空间中的n个点。因此,我们可以用距离来度量样品之间接近的程度。
常用的距离
1)明氏(Minkowski)距离。
当 时,为绝对距离;
当 时,为欧氏距离;
当 时,为切比雪夫距离。
当各变量的测量值相差悬殊时,采用明氏距离并不合理,需要先对数据标准化,然后用标准化后的数据计算距离。
明氏距离特别是其中的欧氏距离是人们较为熟悉的,也是使用最多的距离。但明氏距离存在不足之处,主要表现在两个方面:第一,它与各指标的量纲有关;第二,它没有考虑指标之间的相关性,欧氏距离也不例外。
2)马氏距离
设 表示指标的协差阵即:
? 其中 ?
???
如果 存在,则两个样品之间的马氏距离为
???
这里 为样品 的 个指标组成的向量,即原始资料阵的第 行向量。样品 类似。
顺便给出样品 到总体 的马氏距离定义为
???
其中 为总体的均值向量, 为协方差阵。
马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。除此之外,它还有一些优点,如可以证明,将原数据作一线性交换后,马氏距离仍不变等等。
3)兰氏距离
?? ????
此距离仅使用于一切 的情况,这个距离有助于克服各指标之间量纲的影响,但没有考虑指标之间的相关性。
计算任何两个样品 与 之间的距离 ,其值越小表示两个样品接近程度越大, 值越大表示两个样品接近程度越小。如果把任何两个样品的距离都算出来后,可排成距离阵 :
?????
其中 。 是一个实对称阵,所以只须计算上三角形部分或下三角形部分即可。根据 可对 个点进行分类,距离近的点归为一类,距离远的点归为不同的类。
三、相似系数
1)夹角余弦
将任何两个样品 与 看成 维空间的两个向量,这两个向量的夹角余弦用 表示。则 ?????
当 ,说明两个样品 与 完全相似; 接近1,说明两个样品 与 相似密切; =0,说明 与 完全不一样; 接近0,说明 与 差别大。把所有两两样品的相似系数都算出,可排成相似系数矩阵:
???
其中 。 是一个实对称阵,所以只须计算上三角形部分或下三角形部分,根据 可对 个样品进行分类,把比较相似的样品归为一类,不怎么相似的样品归为不同的类。
2)相关系数
通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第 个样品与第 个样品之间的相关系数定义为:
?????
其中 ????
3)实际上, 就是两个向量 与 的夹角余弦,
4)其中 。若将原始数据标准化,则 ,这时 。把两两样品的相关系数都算出来,可排成样品相关系数矩阵:
????????
其中 ,可根据 可对 个样品进行分类。
第三节? 系统聚类方法
正 如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离,或者定义为两类之间 最远样品的距离,与可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距
文档评论(0)