网站大量收购独家精品文档,联系QQ:2885784924

《应用统计分析》课件_第9章 聚类分析.pptx

《应用统计分析》课件_第9章 聚类分析.pptx

  1. 1、本文档共74页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第9章聚类分析9.1聚类分析概述9.2聚类统计量9.3无量纲化方法9.4Q型系统聚类法9.5R型系统聚类法9.6快速聚类法9.7SPSS操作实例1

2引入案例——体操裁判打分倾向聚类案例背景第32届夏季奥林匹克运动会,即2020年东京奥运会,是由日本奥林匹克委员会举办的国际性运动会,于2021年7月23日开幕、8月8日闭幕。其中,体操赛事受到了广泛关注。体操比赛包括自由体操、鞍马、吊环、跳马、双杠、单杠、高低杠、平衡木等,由裁判根据运动员的动作呈现进行打分。此次东京奥运会上,因裁判判罚引起的争议不少。按照国际体操联合会的规定,在大型比赛中,每个项目的裁判员人数为9人,其中裁判长1人,A组裁判员2人(2人中包括技术助理1人),B组裁判员6人。裁判长的任务是指导和监督本组裁判员的评分工作。A组裁判员主要是根据运动员的一套动作的难度、特殊要求和加分等计算出起评分。B组裁判员主要是对运动员动作的完成情况进行扣分。另外,裁判组还包括记录员:如果运动员越过边线,记录员及时用信号通知裁判长,裁判长将根据规则予以扣分。

3引入案例——体操裁判打分倾向聚类数据说明研究者收集了中、美、法等7个国家的裁判和未经严格训练的体育爱好者在评判体育比赛中对选手的评分情况。所收集的数据如图9-1所示(详细数据见附件表格)。根据评分上的差异可以将它们聚为适当的类。具体聚类方法本章将会详细介绍。

第1节聚类分析概述9.1.1起源和基本思想9.1.2数据的适用范围4

5聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。分类问题是各个领域普遍存在的问题,如市场营销学中进行市场分层、人口学中研究人口生育分类模式、医学中对各种疾病特征进行分析等等,这些都需要对研究对象进行分类。聚类分析是应用非常广泛的分类方法,它将性质相近的个体分为一类,使得同类中的个体具有高度同质性,不同类中的个体具有高度异质性。

9.1.1起源和基本思想6聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,人们对分类的要求越来越高,有时仅凭经验和专业知识难以确切地进行分类,于是逐渐将数学工具引用到了分类学中,形成了数值分类学;之后又将多元分析的技术引入到数值分类学,形成了聚类分析。聚类分析是无先验信息的分类方法;第10章将要介绍的判别分析是有先验信息,通过训练样本集合的分类方法。

9.1.1起源和基本思想7聚类分析的基本思想是认为研究的样本或变量之间存在着不同程度的相似性,根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本或变量归为一类,把另外一些彼此之间相似程度较大的样本或变量也归为一类,关系密切(距离较近)的归到一个小的分类单位,关系疏远(距离较远)的归到一个大的分类单位,直到把所有的样本或变量都聚合完毕。聚类时,由于目的、要求不同,因而会产生各种不同的聚类方法,包括由小类合并到大类的方法、由大类分解为小类的方法、静态聚类法、动态聚类法、按样本聚类(Q)和按指标聚类(R)。

9.1.2数据的适用范围8聚类分析的研究对象是样品或指标,对定性数据和定类数据都适用。从目前的聚类方法看,大多数的方法是当研究对象是样品时,基于数据间的距离来分析;当研究对象是指标时,基于相似度来进行分析。这要求所分析的数据必须是可以测度的,必须是定量的数据,这导致传统的聚类方法无法有效地处理定性数据。对定性数据进行聚类分析处理,可以将定性数据看作离散型数据,转换为可以测度的数据后再进行聚类分析,具体方法见9.2.3。

第2节聚类统计量9.2.1Q型聚类统计量9.2.2R型聚类统计量9.2.3定性数据聚类统计量9

10设有n个样本单位,每个样本测得p项指标,则原始资料矩阵为聚类分析可采用不同类型的统计量,通常Q型聚类以距离作为统计量,R型聚类以相似系数作为统计量。

9.2.1Q型聚类统计量11Q型聚类通常以距离作为统计量。每个样本点有p个变量,因此可以将n个样本点看作p维空间的n个点,那么各个样本点间的接近程度可以用距离来度量。以dij作为第i样本点与第j样本点间的距离,距离越短表示两样本点之间的相似程度越高,常见的距离指标有以下6个。欧氏距离(EuclideanDistance)绝对距离(ManhattanDistance)明考斯基距离(MinkowskiDistance)兰氏距离(LanceandWilliamsDistance)马氏距离(MahalanobisDistance)切比雪夫距离(ChebychevDistance)

9.2.1Q

文档评论(0)

酱酱 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档