《数据统计分析》教学课件 第11章聚类分析.pptVIP

《数据统计分析》教学课件 第11章聚类分析.ppt

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个: 一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。 另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。 距离与相似系数 设有n个样品,每个样品测得p项指标(变量),原始资料阵为 其中 为第i个样品的第j个指标的观测数据。第i个样品Xi为矩阵X的第i行所描述,所以任何两个样品XK与XL之间的相似性,可以通过矩阵X中的第K行与第L行的相似程度来刻划;任何两个变量 与 之间的相似性,可以通过第K列与第L列的相似程度来刻划。 距离与相似系数 距离 如果把n个样品(X中的n个行)看成p维空间中n个点,则两个样品间相似程度可用p维空间中两点的距离来度量。令dij表示样品Xi与Xj的距离。常用的距离有: i)明氏(Minkowski)距离 当q=1时 即绝对距离 当q=2时 即欧氏距离 当 时 即切比雪夫距离 距离 当各变量的测量值相差悬殊时,要用明氏距离并不合理,常需要先对数据标准化,然后用标准化后的数据计算距离。 明氏距离特别是其中的欧氏距离是人们较为熟悉的也是使用最多的距离。但明氏距离存在不足之处,主要表面在两个方面: 第一,它与各指标的量纲有关; 第二,它没有考虑指标之间的相关性,欧氏距离也不例外。 除此之外,从统计的角度上看,使用欧氏距离要求一个向量的n个分量是不相关的且具有相同的方差,或者说各坐标对欧氏距离的贡献是同等的且变差大小也是相同的,这时使用欧氏距离才合适,效果也较好,否则就有可能不能如实反映情况,甚至导致错误结论。 ii)马氏(Mahalanobis)距离 马氏距离是由印度统计学家马哈拉诺比斯于1936年引入的,故称为马氏距离。这一距离在多元统计分析中起着十分重要的作用,下面给出定义。 设表示指标的协差阵即: 其中 如果存在,则两个样品之间的马氏距离为 这里为样品的p个指标组成的向量,即原始资料阵的第i行向量。样品类似。 距离 iii)兰氏(Canberra)距离 它是由Lance和Williams最早提出的,故称兰氏距离。 此距离仅适用于一切 的情况,这个距离有助于克服各指标之间量纲的影响,但没有考虑指标之间的相关性。 计算任何两个样品 与 之间的距离 ,其值越小表示两个样品接近程度越大, 值越大表示两个样品接近程度越小。如果把任何两个样品的距离都算出来后,可排成距离阵D: 距离 D是一个实对称阵,所以只须计算上三角形部分或下三角形部分即可。根据D可对n个点进行分类,距离近的点归为一类,距离远的点归为不同的类。 相似系数 i)夹角余弦 这是受相似形的启发而来的,下图曲线AB和CD尽管长度不一,但形状相似。 当长度不是主要矛盾时,要定义一种相似系数,使AB和CD呈现出比较密切的关系,则夹角余弦就适合这个要求。它的定义是: 将任何两个样品 与 看成p维空间的两个向量,这两个向量的夹角余弦用表示 。则 相似系数 当 ,说明两个样品与完全相似; 接近1,说明与相似密切; , 说明与完全不一样; 接近0,说明与差别大。把所有两两样品的相似系数都算出,可排成相似系数矩阵: H 相似系数 ii)相关系数 通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第i个样品与第j个样品之间的相关系数定义为: 例题分析 [例]某地区九个农业区的七项指标,它们经过极差标准化处理后,其绝对距离表为: 聚类分析的方法 10.2.1 直接距离法 10.2.2 最短距离聚类法 10.2.3 最远距离聚类法 10.2.1 直接距离法 直接聚类法是根据距离矩阵的结构一次并类得到结果。 基本步骤: ① 把各个分类对象单独视为一类; ② 根据距离最小的原则,依次选出一对分类对象,并成新类; ③ 如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已

文档评论(0)

一帆风顺 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档