网站大量收购闲置独家精品文档,联系QQ:2885784924

应用多元统计分析聚类分析.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

【例5.2】针对例5.1的数据,试用重心法将它们聚类。样品采用欧氏距离,计算样品间的平方距离阵D2(0),见表5.4所示。表5.4并成G7,G5和G6合并成G8,并利用(5.18)式计算新类与02其中,04D2(0)中最小的元素是D212=D256=1,于是将G1和G2合01其它类的距离得到距离阵D2(1),见表5.5:03其它结果类似可以求得05在D2(1)中最小值是D234=4,那么G3与G4合并一个新类G9,其与与其它类的距离D2(2),见表5.6:表5.6在中最小值是=12.5,那么与合并一个新类,其与与其它类的距离,见表5.7:表5.7壹贰最后将G7和G10合并成G11,这时所有的六个样品聚为一类,其过程终止。上述重心法聚类的可视化过程见图5.3所示,横坐标的刻度表示并类的距离。01图5.3重心聚类法的过程02可变类平均法1由于类平均法中没有反映出Gp和Gq之间的距离Dpq的影响,2因此将类平均法进一步推广,如果将Gp和Gq合并为新类Gr,类Gk与新并类Gr的距离公式为:3(5.22)4其中?是可变的且?1,称这种系统聚类法为可变类平均法。5个样品,nt表示Gt中样品的个数,是Gt的重心,则Gt的样品离差平方和为04设将n个样品分成k类G1,G2,…,Gk,用Xit表示Gt中的第I03离差平方和法01该方法是Ward提出来的,所以又称为Ward法。该方法的基本思想来自于方差分析,如果分类正确,同类样品的离差平方和应当较小,类与类的离差平方和较大。具体做法是先将n个样品各自成一类,然后每次缩小一类,每缩小一类,离差平方和就要增大,选择使方差增加最小的两类合并,直到所有的样品归为一类为止。02第五章聚类分析第一节引言第二节相似性的量度第三节系统聚类分析法第四节K均值聚类分析第一节引言“物以类聚,人以群分”。对事物进行分类,是人们认识事物的出发点,也是人们认识世界的一种重要方法。因此,分类学已成为人们认识世界的一门基础科学。在生物、经济、社会、人口等领域的研究中,存在着大量量化分类研究。例如:在生物学中,为了研究生物的演变,生物学家需要根据各种生物不同的特征对生物进行分类。在经济研究中,为了研究不同地区城镇居民生活中的收入和消费情况,往往需要划分不同的类型去研究。在地质学中,为了研究矿物勘探,需要根据各种矿石的化学和物理性质和所含化学成分把它们归于不同的矿石类。在人口学研究中,需要构造人口生育分类模式、人口死亡分类状况,以此来研究人口的生育和死亡规律。但历史上这些分类方法多半是人们主要依靠经验作定性分类,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联系;特别是对于多因素、多指标的分类问题,定性分类的准确性不好把握。为了克服定性分类存在的不足,人们把数学方法引入分类中,形成了数值分类学。后来随着多元统计分析的发展,从数值分类学中逐渐分离出了聚类分析方法。随着计算机技术的不断发展,利用数学方法研究分类不仅非常必要而且完全可能,因此近年来,聚类分析的理论和应用得到了迅速的发展。聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理,R型聚类是对变量进行分类处理。0102第二节相似性的量度一样品相似性的度量二变量相似性的度量一、样品相似性的度量在聚类之前,要首先分析样品间的相似性。Q型聚类分析,常用距离来测度样品之间的相似程度。每个样品有p个指标(变量)从不同方面描述其性质,形成一个p维的向量。如果把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义,令dij表示样品Xi与Xj的距离,存在以下的距离公式:1明考夫斯基距离2(5.1)3明考夫斯基距离简称明氏距离,按的取值不同又可分成:4欧氏距离是常用的距离,大家都比较熟悉,但是前面已经提到,在解决多元数据的分析问题时,欧氏距离就显示出了它的不足之处。一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的。为了克服这方面的不足,可用“马氏距离”的概念。01设Xi与Xj是来自均值向量为?,协方差为∑=(>0)的总体02G中的p维样品,则两个样品间的马氏距离为03(5.5)04马氏距离又称为广义欧氏

文档评论(0)

SYWL2019 + 关注
官方认证
内容提供者

权威、专业、丰富

认证主体四川尚阅网络信息科技有限公司
IP属地北京
统一社会信用代码/组织机构代码
91510100MA6716HC2Y

1亿VIP精品文档

相关文档