多元统计分析 第5章 聚类分析.pptVIP

  1. 1、本文档共94页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* Distance is just once way of measuring dissimilarity (wiki). Changed “register only the distance” to “registers only the difference” or “dissimiarity”? * * MK: I tried to change equations so as to match notation in book, but each time I try to install the equation editor, it fails! Agh! * * * * MK: For lecture, this may be OK here, but I think discussion of standardization/normalization is better kept all together in Chapter 3 * * MK: Machine learning used the term “feature VECTORS” I made some changes to the wording of this slide because it implied that our previous data were not vectors, but they were all feature vectors. I also changed the example since the one used was from Tan’s book (see next slide). Chapter 3: Statistics Methods Co-variance distance K-L divergence * 09/09/25MK: New example (previous one was from Tan’s book). Chapter 3: Statistics Methods Co-variance distance K-L divergence 第二步:计算某个样品到各类中心的欧氏平方距离,然后将该样品分配给最近的一类。对于样品有变动的类,重新计算它们的中心坐标,为下一步聚类做准备。 先计算A到两个类的平方距离: 由于A到(A、B)的距离小于到(C、D)的距离,因此A不用重新分配; 计算B到两类的平方距离: 对C、D同样(略) K均值聚类分析 由于B到(A、B)的距离大于到(C、D)的距离,因此B要分配给(C、D)类,得到新的聚类是(A)和(B、C、D) 更新中心坐标: K均值聚类分析 第三步:再次检查每个样品,以决定是否需要重新分类。计算各样品到各中心的距离平方: 发现:每个样品都已经分配给距离中心最近的类,聚类过程到此结束 最终得到K=2的聚类结果是A独自成一类,B、C、D聚成一类 K均值聚类分析 K均值聚类分析 系统聚类与K均值聚类都是距离度量类聚类方法 系统聚类对不同的类数产生一系列的聚类结果 K—均值法只能产生指定类数的聚类结果 具体类数的确定? 实践经验的积累(机理研究) 借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考 优点: 相对有效性: O(tkn), 其中 n 是对象数目, k 是簇数目, t 是迭代次数; 通常:k, t n. 比较: PAM: O(k(n-k)2), CLARA: O(ks2 + k(n-k)) PAM (Partitioning Around Medoid,围绕代表点的划分) CLARA (Clustering LARge Applications) 当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好 K均值聚类分析 弱点 只有在簇的平均值(mean)被定义的情况下才能使用.可能不适用于某些应用 涉及有分类属性的数据 需要预先指定簇的数目k 不能处理噪音数据和孤立点(outliers) 常常终止于局部最优(初值依赖). 尝试不同的初值 全局最优 可以使用诸如模拟退火(simulated annealing)和遗传算法(genetic algorithms)等技术得到 K均值聚类分析 K均值方法的变种, 它们在以下方面有所不同 初始k个平均值的选择 距离的度量 计算聚类平均值的策略 处理分类属性: k- 模(k-modes) 方法(Huang’98) 用模(modes众数)替代聚类的平均值 使用新的距离度量方法来处理分类对象 用基于频率的方法 k-原型(k-prototype)方法: k-平均和k-模的结合, 处理具有数值和分类属性的数据 K均

文档评论(0)

ma982890 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档