- 1、本文档共47页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工学]7聚类分析
第六章 聚类分析 §6.1 引言 §6.2 距离和相似系数 §6.3 系统聚类法 §6.4 动态聚类法 §6.1 引言 判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。判别分析方法假定组(或类)已事先分好,判别新样品应归属哪一组,对组的事先划分有时也可以通过聚类分析得到。聚类分析方法是按样品(或变量)的数据特征,把相似的样品(或变量)倾向于分在同一类中,把不相似的样品(或变量)倾向于分在不同类中。 聚类分析根据分类对象不同分为Q型和R型聚类分析。 §6.2 距离和相似系数 相似性度量:距离和相似系数。 距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。 样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。 变量的测量尺度 通常变量按测量尺度的不同可以分为间隔、有序和名义尺度变量三类。 间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。 有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。 名义尺度变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。 本章主要讨论具有间隔尺度变量的样品聚类分析方法。 距离有多种定义方法,在聚类分析中最常用的是欧氏距离,即有 当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令 其中 和 分别为第 个变量的样本均值和样本方差。 二、相似系数 聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。 变量之间的这种相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。 相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。 聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。 相似系数一般需满足的条件 (1) ,当且仅当 和 是常数; (2) ,对一切 ; (3) ,对一切 。 最常用的两个相似系数 相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。 由距离来构造相似系数总是可能的,如令 这里 为第 个样品与第 个样品的距离,显然 满足定义相似系数的三个条件,故可作为相似系数。 距离必须满足定义距离的四个条件,所以不是总能由相似系数构造。高尔(Gower)证明,当相似系数矩阵 为非负定时,如令 则 满足距离定义的四个条件。 §6.3 系统聚类法 系统聚类法是聚类分析诸方法中用得最多的一种。 基本思想是:开始将个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。 常用的系统聚类方法 一、最短距离法 二、最长距离法 三、中间距离法 四、类平均法 五、重心法 六、离差平方和法(Ward方法) 一、最短距离法 定义类与类之间的距离为两类最近样品间的距离,即 最短距离法的聚类步骤 (1) 规定样品之间的距离,计算 个样品的距离矩阵 ,它是一个对称矩阵。 (2) 选择 中的最小元素,设为 ,则将 和 合并成一个新类,记为 ,即 (3) 计算新类 与任一类 之间距离的递推公式为 最短距离法的聚类步骤 在 中, 和 所在的行和列合并成一个新行新列,对应 ,该行列上的新距离值由(6.3.2)式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作 。 (4) 对 重复上述对 的两步得 ,如此下去直至所有元素合并成一类为止。 如果某一步 中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。 二、最长距离法 类与类之间的距离定义为两类最远样品间的距离,即 最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。 递推公式: 最长距离法容易被异常值严重地扭曲,一个有效的方法是将这些异常值单独拿出来后再进行聚类。 三、中间距离
文档评论(0)