- 1、本文档共81页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
重心法递推公式 假设第p类和第q类合并成第r类, 则第r类与其它各旧类GJ的距离按重心法为: 用重心法对5个样品进行分类。首先采用绝对距离计算距离平方矩阵: ? 0 ? ? ? ? 1 0 ? ? ? 6.25 2.25 0 ? ? 36 25 12.25 0 ? 64 49 30.25 4 0 G4和G6的距离为 类似于方差分析的想法,如果类分得恰当,同类内的样品之间的离差平方和应较小,而类间的离差平方和应当较大。 5、离差平方和法(Ward’s Method) 具体做法:先让n个样品各自成一类,然后缩小一类,每缩小一类离差平方和就要增大,选择使S2增加最小的两类合并,直到所有的样品归为一类为止。 把Gp和Gq合并为Gr类 各类内样品的离散程度为 这种系统聚类法称离差平方和法或Ward法 如 和 为一类,则离差平方和 如 和 为一类,则离差平方和 和 被聚为新类,重心为 ? 0 ? ? ? ? 0.5 0 ? ? ? 3.125 1.125 0 ? ? 18 12.50 6.125 0 ? 32 24.50 15.125 2 0 (2)马氏距离(广义欧氏距离) 是印度著名统计学家马哈拉诺比斯(P.C.Mahalanobis)所定义的一种距离,设xi,xj是来自均值向量 总体G中的P维样品,则其计算公式为: 马氏距离与前述距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,不再受个指标量纲的影响,将原始数据做线性变换后,马氏距离不变。为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。 例如,假设有一个二维正态总体,它的分布为: (3)兰氏距离:兰思和维廉姆斯(Lance Williams)所给定的一种距离, 其计算公式为: 这是一个自身标准化的量,由于它对大的奇异值不敏感,特别适合于高度偏倚的数据。虽然这个距离有助于克服闵氏距离的第一个缺点(与各变量单位无关),但它也没有考虑指标之间的相关性。 (4) 斜交空间距离 由于各变量之间往往存在着不同的相关性,用欧氏距离来显得不太敏感,所以有人建议采用斜交空间距离 当各变量之间不相关时, 斜交空间退化为欧氏距离。(除相差一常数) 3、相似系数(变量相似性度量) (1)相似系数 设 和 是第 和 个样品的观测值,将数据标准化后的 夹角余弦,则二者之间的相似测度为: 变量间常借助于相似系数来定义距离,如 距离越小,相似系数越大 (2)夹角余弦 夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量 4、距离和相似系数选择的原则 同一批数据采用不同的亲疏测度指标,得到不同的聚类结果。产生原因,主要是由于不同的亲疏测度指标所衡量的亲疏程度的实际意义不同,即,不同的亲疏测度指标代表了不同意义上的亲疏程度。因此在进行聚类分析时,应注意亲疏测度指标的选择。通常,选择亲疏测度指标时,应注意遵循的基本原则主要有: (1)所选择的亲疏测度指标在实际应用中应有明确的意义。如在经济变量分析中,常用相关系数表示经济变量之间的亲疏程度。 (2)亲疏测度指标的选择要综合考虑已对样本观测数据实施的变换方法和将要采用的聚类分析方法。如在标准化变换之下,夹角余弦实际上就是相关系数;又如聚类前已对变量的相关性作了处理,则通常可采用欧氏距离。此外,所选择的亲疏测度指标,还须和所选用的聚类分析方法一致。如聚类方法若选用离差平方和法,则距离只能选用欧氏距离。 (3)适当地考虑计算工作量的大小。如大样本,不宜选择斜交空间距离,计算工作量太大。样品间或变量间亲疏测度指标的选择是一个比较复杂且带主规性的问题,应根据研究对象的特点作具体分析。实践中,在开始进行聚类分析时,不妨试探性地多选择几个亲疏测度指标,分别进行聚类,然后对聚类分析的结果进行对比分析,以确定出合适的亲疏测度指标。? §3 系统聚类方法 -、分析过程: 1、根据样品的特征,每个样品自成一
文档评论(0)