- 1、本文档共39页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
19第十九章聚类分析讲解
结合专业知识,本例认为类平均法聚类结果比较合理,分类结果列入表19-3最后一栏。它将{10,20,23}号工人分为一类,其余分为另一类。研究者最终发现10,20,23号工人为癌症高危人群。根据离差平法和法聚类图,不难发现{10,20,23,8,16,26}号聚在一类,提示8,16,26号工人也可能是癌症高危人群之一。 以下列出类平均法具体聚类过程,供参考。 类平均法系统聚类过程 聚类步骤 两类合并 欧氏距离 1步 (样品18 , 样品21) 合并成 新 1 类 1.1856 2步 (样品5 , 样品13) 合并成 新 2 类 1.4969 3步 (样品12 , 样品24) 合并成 新 3 类 1.5225 4步 (样品20 , 样品23) 合并成 新 4 类 1.6050 5步 (新1类 , 样品19) 合并成 新 5 类 1.7079 6步 (样品6 , 样品11) 合并成 新 6 类 1.8243 7步 (样品8 , 样品26) 合并成 新 7 类 1.9098 8步 (样品4 , 样品7) 合并成 新 8 类 1.9317 9步 (样品1 , 样品14) 合并成 新 9 类 2.1620 10步 (样品9 , 样品15) 合并成 新 10 类 2.2007 11步 (新6类 , 样品27) 合并成 新 11 类 2.3833 12步 (新7类 , 样品22) 合并成 新 12 类 2.5590 13步 (新3类 , 样品25) 合并成 新 13 类 2.7956 14步 (新5类 , 新2类) 合并成 新 14 类 2.8696 15步 (新4类 , 样品16) 合并成 新 15 类 2.9605 16步 (新12类 , 新8类) 合并成 新 16 类 3.1127 17步 (新10类 , 样品17) 合并成 新 17 类 3.4346 18步 (新11类 , 新9类) 合并成 新 18 类 3.5808 19步 (新16类 , 新13类) 合并成 新 19 类 3.9379 20步 (新18类 , 样品3) 合并成 新 20 类 4.0824 21步 (新15类 , 样品10) 合并成 新 21 类 4.4155 22步 (新20类 , 新14类) 合并成 新 22 类 4.5420 23步 (新19类 , 样品2) 合并成 新 23 类 5.2479 24步 (新23类 , 新22类) 合并成 新 24 类 6.1086 25步 (新24类 , 新21类) 合并成 新 25 类 6.9102 26步 (新25类 , 新17类) 合并成 新 26 类 7.1642 第三节 动态样品聚类 当待分类的样品较多时,如海量数据挖掘,系统聚类分析将耗费较多的计算资源来储存相似系数矩阵,计算速度缓慢。另外,用系统聚类方法聚类,样品一旦归类后就不再变动了,这就要求分类十分准确。针对系统聚类方法的这些缺陷,统计学者提出所谓动态聚类分析方法,这种分类方法既解决了计算速度问题,又能随着聚类的进展对样品的归类进行调整。 动态样品聚类的原理是:首先确定几个有代表性的样品,称之为凝聚点,作为各类的核心,然后将其他样品逐一归类,归类的同时按某种规则修改各类核心直至分类合理为止。 动态样品聚类方法中最常用的一种是k-means法. 这种方法原理简单,分类快速,一般经过几轮归类就收敛了,即使样品很多也能迅速得到分类结果。此法的缺点是要事先知道分类数目。在某些具体问题中分类数目根据专业知识是完全可以事先确定的,而在有的问题中分类数目则难以确定。 第四节 有序样品聚类 前面讲到的样品聚类分析方法,适用于无序样品的分类。在科学研究中存在另一类型的资料,各样品在时域或空域存在自然顺序,如生长发育资料的年龄顺序,发病率的年代顺序和地理位置。我们称这种样品为有序样品。对有序样品分类时要考虑到样品的顺序特性这个前提条件,分类时不破坏样品间的顺序,由此形成的样品聚类方法称为有序样品聚类(ordinal clustering methods)。 应用注意事项1.聚类分析方法常用于数据的探索性分析,聚类分析的结果解释应密切结合专业知识,同时尝试用多种聚类方法分类,才能获得较理想的结论。2.聚类前应对变量作预处理,剔除无效变量(变量值变化很小)、缺失值过多的变量。一般需对变量作标准化变换或极差变换,以消除量纲和变异系数大幅波动的影响。 3.较理想的样品分类结果应使类间差异大,类内差异较小。分类后单变量时应用方差分析,多变量时应用多元方差分析检验类间差异有无统计学意
文档评论(0)