- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多元统计论文聚类分析论文
多元统计论文聚类分析论文:浅析聚类分析法
【摘要】多元统计是研究多个随机变量之间相互依赖关系以及内在规律性的一门统计学科。
【关键词】多元统计;聚类分析
【中图分类号】g648.4【文章标识码】b 【文章编号】1326-3587(2011)07-0004-02
聚类分析正处于发展阶段,理论上虽然不很完善,但由于它能够解决许多实际问题,所以现在越来越来多的收到人们的重视。
一、聚类分析的基本思想
聚类分析方法认为,在所研究的统计总体中,各样品或指标(变量)之间存在着程度不同的相似性(亲疏关系),因此可以根据一批样品的多个观测指标,找到一些能够度量其相似程度的统计量,并根据这些统计量事物的分来进行分类。
二、聚类分析的基本概念
(1)分类。
1、按照其聚类的方法可以分为以下几种:
调优类(动态聚类法):对n个对象初步分类,然后根据分类的损失函数尽可能小的原则对其进行调整,直到分类合理为止。
n个对象看成一类,然后根据某种最有准则将它们分割为二类、三类,分割到合理的k类为止。
2、按照对象的不同可以分为q型聚类和r型聚类。其中q型聚类是根据样品进行的分类处理,而r型聚类,则是根据变量。
2)测量尺度:距离和相似系数。
n个样品,p个指标,则可得到一个n*p的数据矩阵 。
p维空间中的n个点,他们分别代表代表具有p个特性和n个样品。通常可以这样理解,具有共同特性的样品在空间上的距离较近或具有较高的相似性,且它们可以用距离或相系系数去具体刻画。聚类,是根据样品聚类时,用来刻画其“靠近”程度的;相似系数是根据指标聚类时,用类刻画其相似性或相关性的。
1)距离,用 表示第i个样品与第j个样品之间的距离。最常见,最直观的距离有绝对值距离和欧氏距离,即:
欧氏距离 两者可以统一为“闵科夫斯基距离(minkowki)”:
还有兰氏距离,马氏距离,斜交空间距离等。
(2)相似系数,用 表示第i个指标与第j个指标间的相似系数,其值从0到1,表示从疏远到密切的程度,常用的相似系数,有夹角余弦和相关系数,即:
=1- 关系式成立。
以对指标聚类(r型聚类)为例,其聚类过程为:
1)取 =1,把每个指标各作一类,m个指标有m类。
2)取 =max{ },将具有相同 的指标归并为一新类,如n={ }。
3)构造新的m-1阶矩阵。在新的m-1阶矩阵中,新类(如n={ })与其余类如 (w≠t,w≠s)的聚类统计量的计算方法有:最大法 =max{ , };
=min{ , };加权法 = + 。
4)取 将具有相同 的指标归并为又一新类。
5)构造新的m-2阶矩阵。在新的m-2阶矩阵中,该新类与其余类的聚类统计量的计算方法同步骤(3)。
a、最大统计量法聚类过
b、最小统计量法聚类过程;
c、加权统计量法聚类过程。
的不同选取将变化多端,如选 即为常用的平均统计量法聚类过程。
系统聚类法一次形成类以后就不能改变了,这对分类方法的要求比较高,计算量较高,相应地,对计算机的内存要求较高。
动态聚类法具有计算量较小,占用计算机内存空间较少,方法简单的优点,适用于大样本的q型聚类分析。
1、石军、熊苡,《多元统计、聚类分析法在自然资源开发中的应用》山东理工大学学报
2、张世强,《关于数理统计中系统聚2005年10月第22卷第5期
3、袁清珂、赵汝嘉、段福兴、车军,《系统聚类分析方法与分类布点决策的研究》农业工程学报
4、高惠璇,《应用多元统计分析》
文档评论(0)