数学建模聚类剖析.ppt

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基本思想 基本思想 2 相似性度量 Q型样品间的“相似性”度量—距离 选择适用的距离 1 、最短距离(Nearest Neighbor) 1、根据样品的特征,规定样品之间的距离 ,共有 个。将所有列表,记为D(0)表,该表是一张对称表。所有的样本点各自为一类。 3、利用递推公式计算新类与其它类之间的距离。分别删除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的结果,产生D(1)表。 4、在D(1)表再选择最小的非零数,其对应的两类有构成新类,再利用递推公式计算新类与其它类之间的距离。分别删除D(1)表的相应的行和列,并新增一行和一列添上的新类和旧类之间的距离。结果,产生D(2)表。类推直至所有的样本点归为一类为止。 2.最长距离(Furthest Neighbor ) 2.最长距离(Furthest Neighbor ) 3.类平均距离 组内平均连接法(Within-group Linkage) 4.重心法(Centroid clustering):均值点的距离 x21? x12? x22? x11? 3.类平均距离 ? ? 将p和q合并为k,则k类的样品个数为 它的重心是 某一类 r 的重心是 ,它与新类k的距离是 经推导可以得到如下递推公式: 设聚类到某一步,类p与 q分别有样品 、 个, 例2 设有6个样品,每个只测一个指标,分别是1,2,5,7,9,10,试采用欧氏距离的平方,试用重心法将它们进行分类。 0 1 9 25 64 81 G6 0 4 16 49 64 G5 0 4 25 36 G4 0 9 16 G3 0 1 G2 0 G1 G6 G5 G4 G3 G2 G1 D2(0) 0 6.25 20.25 64 G8 0 4 30.25 G4 0 12.25 G3 0 G7 G8 G4 G3 G7 D2(1) 其中 D2(2) 0 12.25 64 G8 0 20.25 G9 0 G7 G8 G9 G7 D2(3) 0 39.0625 G10 0 G7 G10 G7 G1={1} G2={2} G3={5} G4={7} G5={9} G6={10} 2 4 12.5 D 1 G9 G7 G8 G10 G11 聚 类 分 析 一、聚类分析(Cluster Analysis)简介 聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。 数理统计中的数值分类有两种问题: 判别分析:已知分类情况,将未知个体归入正确类别 聚类分析:分类情况未知,对数据结构进行分类 聚类分析的基本思想: 对所研究的样品或指标(变量)之间存在着程度不同的相似性(或亲疏关系)。 (1)根据一批样品的多个指标, 具体找出一些能够度量样品或指标之间的相似程度的统计量。 (2)以这些统计量为分类的依据, 把一些相似程度较大的样品(或指标)聚合为一类。 把另一些彼此之间相似程度较大的样品(或指标)聚合为另一类。 按相似程度的大小 把关系密切的样品聚合到一个小的分类单位, 关系疏远的样品聚合到一个大的分类单位, 直到把所有的样品(或指标)都聚合完毕。 把不同的类型一一划分出来, 形成一个由小到大的分类系统。再把整个分类系统画成一张分群图(又称谱系图), 用它把所有样品(或指标)间的亲疏关系表示出来。 要做聚类分析,首先得按照我们聚类的目的,从对象中提取出能表现这个目的的特征指标;然后根据亲疏程度进行分类。 聚类分析根据分类对象的不同可分为Q型和R型两大类 Q型是对样本进行分类处理,其作用在于: 具有共同特点的样本聚在一起 所得结果比传统的定性分类方法更细致、全面、合理 二、聚类对象 R型是对变量进行分类处理,其作用在于: 可以了解变量间及变量组合间的亲疏关系 可以根据变量的聚类结果及它们之间的关系,选择主要变量进行回归分析或Q型聚类分析 进行“相关性”或“相似性”度量。在相似性 度量中常常包含有许多主观上的考虑,但是最重要 的是考虑指标性质或观测的尺度。 当样品进行聚类时,“靠近”往往是距离。同时对指标进行聚类时,根据相关系数或某种 关联性度量来聚类。 设每个样品有 p 个指标, 观察值记为 (1) 每个样品 可看成是 p 维空间的一个点。于是, 可用各点之间的距离来衡量各样品点之间的接近程度。 样品 和 之间的距离 , 一般应满足如下条件: (ⅰ)

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档