- 1、本文档共74页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《应用多元分析》第三版(第六章)
1.给定一个阈值T 通过观测树形图,给出一个你认为合适的阈值T,要求类与类之间的距离要大于T,有些样品可能会因此而归不了类或只能自成一类。这种方法有较强的主观性,这是它的不足之处。 2.观测样品的散点图 如果样品只有两个或三个变量,则可通过观测数据的散点图来确定类的个数。对于三个变量,可使用SAS软件的交互式数据分析菜单系统通过旋转三维坐标轴从各个角度来观测散点图。 如果变量个数超过三个,则可对每一可能考虑的聚类结果分别使用费希尔判别法进行降维,将所有样品的前两个或三个判别式得分制作成散点图,观测类之间是否分离得较好以决定分几类较为合适。 从散点图中进行主观聚类 观测散点图还有一个重要的用途,就是从直觉上来判断所采用的聚类方法是否合理,甚至有时直接从散点图中进行主观的分类,效果也许会好于正规的聚类方法,特别是在寻找“自然的”类方面。 寻找“自然的”类 3.使用统计量 (1)R2统计量。 (2)半偏R2统计量。 (3)伪F统计量。 (4)伪t统计量。 §6.4 动态聚类法 动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数k可以事先指定,也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。 动态聚类法有许多种方法,本节中,只讨论一种比较流行的动态聚类法——k均值法。k均值法是由麦奎因(MacQueen,1967)提出并命名的一种算法。 k均值法的基本步骤 (1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。 (2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。 (3)重复步骤(2),直至所有的样品都不能再分配为止。 最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。 例9.4.1 对例9.3.1采用k均值法聚类,指定k=2,具体步骤如下: (1) 随意将这些样品分成 两类,则这两个初始类的均值分别是5和 。 (2)计算1到两个类(均值)的欧氏距离 由于1到 的距离小于到 的距离,因此1不用重新分配,计算6到两个类的距离 故6应重新分配到 中,修正后的两个类为 ,新的类均值分别为 。计算 结果8重新分配到 中,两个新类为 , ,其类均值分别为1和 。再计算 重新分配2到 中,两个新类为 ,其类均值分别为 。 (3)再次计算每个样品到类均值的距离,结果列于表9.4.1。 最终得到的两个类为{1,2}和{6,8,11}。 表6.4.1 各样品到类均值的距离 例6.4.2 对例6.3.3使用k均值法进行聚类,聚类前对各变量作标准化变换,聚类结果如下: 第Ⅰ类:北京、上海和浙江。 第Ⅱ类:广东。 第Ⅲ类:天津、江苏、福建、山东、湖南、广西、 重庆、四川和云南。 第Ⅳ类:河北、山西、内蒙古、辽宁、吉林、黑龙 江、安徽、江西、河南、湖北、海南、贵 州、陕西、甘肃、青海、宁夏和新疆。 第Ⅴ类:西藏。 * * 其中G6= G1∪G2 表6.3.4 D(3) G6 G8 G6 0 G8 4 0 图6.3.2 最短距离法树形图 二、最长距离法 类与类之间的距离定义为两类最远样品间的距离,即 图6.3.3 最长距离法: DKL=d15 最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。 递推公式: 对例6.3.1采用最长距离法,其树形图如图6.3.4所示,它与图6.3.2有相似的形状,但并类的距离要比图6.3.2大一些,仍分成两类为宜。 图6.3.4 最长距离法树形图 异常值的影响 最长距离法容易被异常值严重地扭曲,一个有效的方法是将这些异常值单独拿出来后再进行聚类。 三、中间距离法 类与类之间的距离既不取两类最近样品间的距离,也不取两类最远样品间的距离,而是取介于两者中间的距离,称为中间距离法(median method)。 设某一步将GK和GL合并为GM,对于任一类GJ,考虑由DKJ、DLJ和DKL为边长组成的三角形(如下图所示),取DKL边的中线作为DMJ。DMJ的计算公式为 四、类平均法 类平均法(average l
文档评论(0)