多元统计分析第5章聚类分析.pptVIP

下载本文档

49
0
约1.86万字
约 94页
2019-05-12 发布于浙江
举报
版权申诉

多元统计分析第5章聚类分析.ppt

1、本文档共94页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* Distance is just once way of measuring dissimilarity (wiki). Changed “register only the distance” to “registers only the difference” or “dissimiarity”? * * MK: I tried to change equations so as to match notation in book, but each time I try to install the equation editor, it fails! Agh! * * * * MK: For lecture, this may be OK here, but I think discussion of standardization/normalization is better kept all together in Chapter 3 * * MK: Machine learning used the term “feature VECTORS” I made some changes to the wording of this slide because it implied that our previous data were not vectors, but they were all feature vectors. I also changed the example since the one used was from Tan’s book (see next slide). Chapter 3: Statistics Methods Co-variance distance K-L divergence * 09/09/25MK: New example (previous one was from Tan’s book). Chapter 3: Statistics Methods Co-variance distance K-L divergence 第二步：计算某个样品到各类中心的欧氏平方距离，然后将该样品分配给最近的一类。对于样品有变动的类，重新计算它们的中心坐标，为下一步聚类做准备。先计算A到两个类的平方距离：由于A到（A、B）的距离小于到（C、D）的距离，因此A不用重新分配；计算B到两类的平方距离：对C、D同样（略） K均值聚类分析由于B到（A、B）的距离大于到（C、D）的距离，因此B要分配给（C、D）类，得到新的聚类是（A）和（B、C、D）更新中心坐标： K均值聚类分析第三步：再次检查每个样品，以决定是否需要重新分类。计算各样品到各中心的距离平方：发现：每个样品都已经分配给距离中心最近的类，聚类过程到此结束最终得到K=2的聚类结果是A独自成一类，B、C、D聚成一类 K均值聚类分析 K均值聚类分析系统聚类与K均值聚类都是距离度量类聚类方法系统聚类对不同的类数产生一系列的聚类结果 K—均值法只能产生指定类数的聚类结果具体类数的确定？实践经验的积累（机理研究）借助系统聚类法以一部分样品为对象进行聚类，其结果作为K—均值法确定类数的参考优点: 相对有效性: O(tkn), 其中 n 是对象数目, k 是簇数目, t 是迭代次数; 通常：k, t n. 比较: PAM: O(k(n-k)2), CLARA: O(ks2 + k(n-k)) PAM (Partitioning Around Medoid,围绕代表点的划分) CLARA (Clustering LARge Applications) 当结果簇是密集的，而簇与簇之间区别明显时，它的效果较好 K均值聚类分析弱点只有在簇的平均值(mean)被定义的情况下才能使用.可能不适用于某些应用涉及有分类属性的数据需要预先指定簇的数目k 不能处理噪音数据和孤立点(outliers) 常常终止于局部最优（初值依赖）. 尝试不同的初值全局最优可以使用诸如模拟退火(simulated annealing)和遗传算法(genetic algorithms)等技术得到 K均值聚类分析 K均值方法的变种, 它们在以下方面有所不同初始k个平均值的选择距离的度量计算聚类平均值的策略处理分类属性: k- 模(k-modes) 方法(Huang’98) 用模(modes众数)替代聚类的平均值使用新的距离度量方法来处理分类对象用基于频率的方法 k-原型(k-prototype)方法: k-平均和k-模的结合, 处理具有数值和分类属性的数据 K均

您可能关注的文档

文档评论（0）

ma982890 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

多元统计分析第5章聚类分析.pptVIP