聚类分析实例教程.doc

下载文档 降价啦

3
0
约 9页
2017-05-06 发布于湖北
举报
版权申诉
保障服务

聚类分析实例教程.doc

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类分析实例教程

k-means聚类”——数据分析、数据挖掘一、概要 ? ? 分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足，尤其是在处理海量数据的时候，如果通过预处理使得数据满足分类算法的要求，则代价非常大，这时候可以考虑使用聚类算法。聚类属于无监督学习，相比于分类，聚类不依赖预定义的类和类标号的训练实例。本文介绍一种常见的聚类算法——k 均值和k 中心点聚类，最后会举一个实例：应用聚类方法试图解决一个在体育界大家颇具争议的问题——中国男足近几年在亚洲到底处于几流水平。二、聚类问题 ? ? 所谓聚类问题，就是给定一个元素集合D，其中每个元素具有n 个可观察属性，使用某种算法将D 划分成k 个子集，要求每个子集内部的元素之间相异度尽可能低，而不同子集的元素相异度尽可能高。其中每个子集叫做一个簇。 ? ? 与分类不同，分类是示例式学习，要求分类前明确各个类别，并断言每个元素映射到一个类别，而聚类是观察式学习，在聚类前可以不知道类别甚至不给定类别数量，是无监督学习的一种。目前聚类广泛应用于统计学、生物学、数据库技术和市场营销等领域，相应的算法也非常的多。本文仅介绍一种最简单的聚类算法——k 均值（k-means）算法。三、概念介绍区分两个概念： hard clustering：一个文档要么属于类w，要么不属于类w，即文档对确定的类w是二值的1或0。 soft clustering：一个文档可以属于类w1，同时也可以属于w2，而且文档属于一个类的值不是0或1，可以是0.3这样的小数。 K-Means就是一种hard clustering，所谓K-means里的K就是我们要事先指定分类的个数，即K个。 k-means算法的流程如下： 1）从N个文档随机选取K个文档作为初始质心 2）对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心的类 3）重新计算已经得到的各个类的质心 4）迭代2～3步直至满足既定的条件，算法结束在K－means算法里所有的文档都必须向量化，n个文档的质心可以认为是这n个向量的中心，计算方法如下： ? ? ? ? ? ? ? ? ? ?? 这里加入一个方差RSS的概念： RSSk的值是类k中每个文档到质心的距离，RSS是所有k个类的RSS值的和。算法结束条件： 1）给定一个迭代次数，达到这个次数就停止，这好像不是一个好建议。 2）k个质心应该达到收敛，即第n次计算出的n个质心在第n＋1次迭代时候位置不变。 3）n个文档达到收敛，即第n次计算出的n个文档分类和在第n＋1次迭代时候文档分类结果相同。 4）RSS值小于一个阀值，实际中往往把这个条件结合条件1使用回过头用RSS讨论质心的计算方法是否合理 ? ? 为了取得RSS的极小值，RSS对质心求偏导数应该为0，所以得到质心 ? ? ? ? ? ? 可见，这个质心的选择是合乎数学原理的。 ? K-means方法的缺点是聚类结果依赖于初始选择的几个质点位置，看下面这个例子：如果使用2－means方法，初始选择d2和d5那么得到的聚类结果就是｛d1，d2，d3｝｛d4，d5，d6｝，这不是一个合理的聚类结果解决这种初始种子问题的方案： 1）去处一些游离在外层的文档后再选择 2）多选一些种子，取结果好的（RSS小）的K个类继续算法 3）用层次聚类的方法选择种子。我认为这不是一个合适的方法，因为对初始N个文档进行层次聚类代价非常高。以上的讨论都是基于K是已知的，但是我们怎么能从随机的文档集合中选择这个k值呢？我们可以对k去1～N分别执行k-means，得到RSS关于K的函数下图：当RSS由显著下降到不是那么显著下降的K值就可以作为最终的K，如图可以选择4或9。四、算法及示例 ? k 均值算法的计算过程非常直观：1、从D 中随机取k 个元素，作为k 个簇的各自的中心。2、分别计算剩下的元素到k 个簇中心的相异度，将这些元素分别划归到相异度最低的簇。3、根据聚类结果，重新计算k 个簇各自的中心，计算方法是取簇中所有元素各自维度的算术平均数。 4、将D 中全部元素按照新的中心重新聚类。 5、重复第4 步，直到聚类结果不再变化。 6、将结果输出。由于算法比较直观，没有什么可以过多讲解的。下面，我们来看看k-means 算法一个有趣的应用示例：中国男足近几年到底在亚洲处于几流水平？今年中国男足可算是杯具到家了，几乎到了过街老鼠人人喊打的地步。对于目前中国男足在亚洲的地位，各方也是各执一词，有人说中国男足亚洲二流，有人说三流，还有人说根本不入流，更有人说其实不比日韩差多少，是亚洲一流。既然争论不能解决问题，我们就让数据告诉我们结果吧。下图是采集的亚