多元统计分析聚类分析讲义参考.doc

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多元统计分析聚类分析讲义参考

《多 元 统 计 分 析》 Multivariate Statistical Analysis 主讲:统计学院 统计学院应用统计学教研室 School of Statistics 第二章 聚类分析 【教学目的】 让学生了解聚类分析的背景、基本思想; 掌握聚类分析的基本原理与方法; 掌握聚类分析的操作步骤和基本过程; 学会应用聚类分析解决实际问题。 【教学重点】 分类的统计量; 各种聚类分析方法的阐述。 §1 概述 什么是聚类分析 1.研究背景 在实际问题中,经常要遇到分类的问题。例如,在考古学中,要将某些古生物化石进行科学的分类;在生物学中,要根据各生物体的综合特征进行分类;在经济学中,为了研究不同地区城镇居民的收入及消费情况,往往需要划分为不同的类型去研究;在产品质量管理中,也要根据各产品的某些重要指标而将其分为一等品,二等品等等。总之,科学的分类方法无论在自然科学,还是在社会科学中,都有着极其广泛的应用。 俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。 随着人类社会的发展与科学技术的进步,对分类学的要求也越来越高。有时,只凭经验和专业知识还不能进行科学有效的分类,于是数学这一有力的工具被逐渐引入到分类学中,形成了一门新兴的学科——数值分类学。后来,随着多元分析方法的引进,从数值分析学中逐渐分离出了聚类分析这个分支。 对于一个数据,人们既可以按照观测值对变量(或指标)进行分类(相当于对数据中的列分类),也可以按照变量对观测值(事件,样品)来分类(相当于对数据中的行分类)。比如利用学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类。当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。本章要介绍的分类的方法称为聚类分析(cluster analysis)。有人称按照观测值对变量的分类为R型聚类,而称按照变量对观测值的分类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。 聚类分析就是一种分类方法,它将一批样品、变量(或指标),按照它们在性质上相似、疏远程度进行科学的分类。而度量相似或疏远程度常有两种指标:距离和相似系数。 2.基本思想 哲学理念:物以类聚、人以群分 聚类分析的基本思想是,从一批样品的多个指标变量中,定义能度量样品间或变量间相似程度(或亲疏关系)的统计量,在此基础上求出各样品(或变量)之间的相似程度度量值,按相似程度的大小,把样品(或变量)逐一分类,关系密切的类聚集到一个小的分类单位,关系疏远的类聚集到一个大的分类单位,直到所有的样品或变量都聚集完毕,把不同的类型一一划分出来,形成一个亲疏关系谱系图,用以更直观地显示分类对象(样品或变量)的差异和联系。 一开始将要归类的个变量(或个体)各自看成一类,然后按事先规定好的方法计算各类之间的归类指标(如某种距离或相似系数),根据指标值大小衡量两两之间关系的密切程度,将关系最密切的两类并成一类,其余不变,即得类;又按事先规定的方法重新计算各类之间的归类指标(仍为某种距离或相似系数),又将关系密切的两类并成一类,其余不变,即得类;如此进行下去,每次归类都减少一类,直到最后,个变量(或个体)都归成一类为止。这一归类过程可以用一张聚类图(或称谱系图)形象地表示出来,由谱系图来进行分类。可以看到,这种系统归类过程,显然与计算类与类之间的归类指标是什么有关系,同时也与归类的方法有关系。 聚类分析方法 值得一提的是聚类分析和第三章的判别分析都是研究分类问题,但二者有本质的区别。聚类分析一般上寻求客观分类的方法,事先对总体到底有几种类型无所知晓,而判别分析则是在总体类型划分已知,在各总体分布或来自各总体训练样本的基础上,对当前的新样品用统计的方法判定它们属于哪个总体。 聚类分析的历史还很短,由于在其发展过程中首先是着重于实用,因此相对而言理论上还不够完善。无论聚类统计量还是聚类的方法,都还未最终定型。目前,聚类统计量种类繁多,聚类方法也五花八门,但由于聚类分析方法能广泛地应用于解决实际问题,它和回归分析,判别分析一起被称为多元分析的三大实用方法。 本章将重点介绍一些常见的分类统计量和目前使用较为广泛的谱系聚类方法。关于其它聚类方法,如模糊聚类法,动态聚类法,有序样品聚类法,分解法,加入法等等,可以参看其它的文献。 §2 聚类统计量 聚类分析所研究的内容包括两个方面,一是对样品进行分类,设n个样品,每个样品均用p个指标的观测向量来表征,要根据间某种相似性度量,将这n个样品进行分类。如某班有n个学生

文档评论(0)

2017meng + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档