- 1、本文档共79页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
09生物统计学第7章详解
(3)调整聚类种子点:( Dmin =2 ) d(X(1) , X(2) )=3 d(X(1) , X(3) )=4 d(X(2) , X(3) )=1 将X(2) , X(3)合并,用它们的几何中心4.5作为新的聚类种子点 得到2个符合要求的聚类种子点:1.0 , 4.5 (4)逐点考察其它样本点 ( dmax =3 ) X(4) , X(5) ,得到3类: * 计算示例 (5)对所有样本点重新归类、调整: 收敛,迭代终止。 1.0 4.0 5.0 7.0 11.0 X(1) X(2) X(3) X(4) X(5) * 计算示例 第四节 聚类分析方法之三:试探法 问题 已知全部t个样品点为X(i) (i=1, 2, …, t) ,找出合理的聚类。 定义欧氏距离为样本间的距离。 类间距离为最短距离。 1 2 3 4 5 6 7 8 9 10 1 基于最邻近规则的试探聚类法 * (2) 选聚类中心Z(1) 任选一样品点为聚类中心Z(1) 一般选X(1)为Z(1) (1) 给定参数 dmax ——类内样品点距离的最大值(非负值) 1 2 3 4 5 6 7 8 9 10 dmax Z(1) * 1 基于最邻近规则的试探聚类法 (3) 逐点确定 考察点X(2),当d12 dmax时,选定X(2)为新的聚类中心Z(2) ,否则, X(2)属于Z(1)类; 考察点X(3),当d31 dmax且d32 dmax 时,选定X(3)为新的聚类中心Z(3) ,否则, X(3)属于距离最近的一类; 逐点考察所有的t个样品点X(i) (i=1, 2, …, t) ,得到最后的聚类。 Z(2) Z(3) 1 2 3 4 5 6 7 8 9 10 dmax Z(1) * 基于最邻近规则的试探聚类法 聚类的效果受下列因素影响: (1)第一个聚类中心的选取 (2)样品点的排序 (3)参数dmax的选取 (4)样品点的分布 特点: (1)聚类速度快,计算量是样品点数的线性关系; (2)简单方便。 * 基于最邻近规则的试探聚类法 1 2 3 4 5 6 7 8 9 10 问题 已知全部t个样品点为X(i) (i=1, 2, …, t) ,找出合理的聚类。 定义欧氏距离为样品间的距离。 2 最大最小距离算法 * (1) 确定最初的两个聚类中心: 计算两两之间距离,以最远的两个样品点作为两个聚类中心。 d(X(1), X(6))最大,故选取X(1)和X(6)为两个聚类中心,记为Z(1)和Z(2)。 Z(1) Z(2) 1 2 3 4 5 6 7 8 9 10 * 最大最小距离算法 (2) 确定其它新的聚类中心: 逐点计算所有样品点X(i) (i=1, 2, …, t) 与Z(1)和Z(2)之间的距离:d(X(i), Z(1))、 d(X(i), Z(2)) 若有 1 2 3 4 5 6 7 8 9 10 Z(1) Z(2) 则令X(i)为新添加的聚类中心点Z(3) 。 否则,转到最后一步。 选择X(7) 为Z(3) 。 Z(3) * 逐点计算所有样品点X(i) (i=1, 2, …, t) 与Z(1) 、Z(2)和Z(3)之间的距离:d(X(i), Z(1))、 d(X(i), Z(2))、 d(X(i), Z(3)) 若有 1 2 3 4 5 6 7 8 9 10 Z(1) Z(2) 则令X(i)为新添加的聚类中心点Z(4) 。 否则,转到最后一步。 …… 得到所有的k个聚类中心点: Z(1) , Z(2),…,Z(k) Z(3) * 1 2 3 4 5 6 7 8 9 10 Z(1) Z(2) Z(3) (3) 按照聚类中心进行归类: 将所有样品点X(i) (i=1, 2, …, t) 按照与Z(1) , Z(2),…,Z(k)的最近距离进行归类。 {X(1), X(3), X(4)} {X(2), X(6)} {X(5), X(7), X(8) , X(9) , X(10)} * 最大最小距离算法 第五节 小结 1 分类统计量——距离、相似系数 (1)数据变换 目的:使不同的量纲、不同取值范围的数据能放在一起比较 中心化变换、标准化变换…… (2)样本点间的距离 距离的定义(非负性、对称性、三角不等式) 欧氏距离、绝对值距离 (3)变量间的相似系数 基于相似系数定义的距离 夹角余弦、相关系数 * 2 谱系聚类法 (1)评述 输出结果是一棵谱
文档评论(0)