网站大量收购独家精品文档,联系QQ:2885784924

机器学习(MATLAB版)ch10-聚类 教学课件.pptxVIP

机器学习(MATLAB版)ch10-聚类 教学课件.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚 类新工科建设之路·人工智能系列教材机器学习(MATLAB 版)第十章 01聚类的基本原理 聚类的基本原理首先指出,聚类也是分类问题,它的目标也是确定每个样本所属的类别(簇)。与监督学习的分类不同的是,聚类的簇不是人工预定好的,而是由聚类算法按照某种准则确定的。 聚类的基本原理聚类既能作为一个单独过程,用于找寻数据的内在规律,也可作为其他学习任务(例如分类或回归)的前驱过程。例如,在购物网中需要对新用户的类型进行判别,但定义“用户类型”对商家来说并不容易,此时往往可先对用户数据进行聚类,根据聚类结果将每个簇定义为一个类,再赋予这个类一个合适的类名,最后基于这些类训练分类模型,用于判别新用户的类型。由此可知,聚类在本质上是对一个集合的划分问题。由于没有人工预定的类别标准,因此要解决的核心问题是如何定义簇。常用的做法是根据样本点之间的距离远近或者样本点在数据空间中的密度大小等准则来确定簇。可以说,正是因为对簇的不同定义导致了不同的聚类算法。在介绍聚类算法之前,先讨论聚类涉及的两个基本问题:距离函数定义和性能指标。 聚类的基本原理1.距离函数定义 聚类的基本原理在机器学习中,常将特征划分为“连续特征”和“离散特征”。连续特征是指在定义域上取值为实数的特征,而离散特征是指在定义域上只取有限个值的特征。对于离散特征在讨论距离计算时,特征上是否定义了“序”关系更为重要。例如,定义域为{1,2.3的离散特征与连续特征的性质更接近一些,能直接在特征值上计算距离:“1”与“2”比较按近、与“3”比较远,这样的特征称为“有序特征”;而定义域为[鞋子,帽子,袜子]这样的离散特征则不能直接在特征值上计算距离,这样的特征称为“无序特征”。显然,闵可夫斯基距离只适用于有序特征。 聚类的基本原理 聚类的基本原理2.性能指标聚类是将样本集划分为若干互不相交的子集(簇)。那么,什么样的聚类结果比较好呢?直观上看,我们希望“物以类聚”,即同一簇的样本尽可能彼此相似,不同簇的样本尽可能不同。聚类的性能指标也叫作有效性指标。一方面,与有监督学习算法类似,对于聚类结果也需通过某种性能指标来评估其好坏。另一方面,如果明确了最终将要使用的性能指标,则可直接将其作为聚类过程的最优化目标,以得到更好的符合要求的聚类结果。聚类性能指标大致有两类:一类是将聚类结果与某个“参考模型”进行比较,称为“外部指标”;另一类是直接考查聚类结果而不利用任何参考模型,称为“内部指标” 聚类的基本原理 聚类的基本原理基于式(10.7)可导出下面这些常用的聚类性能度量外部指标。(1)Jaccard 系数(Jaccard Coefcient,JC),定义为:(2)FM 指标(Fowlkes and Mallows Idex,FMI),定义为:(3)Rand 指数(Rand Index,RI),定义为:显然,上述性能指标的取值都在 [0,1]区间上,且取值越大,聚类的结果越好。 聚类的基本原理下面定义聚类性能度量内部指标。考虑聚类结果的簇划分 C ={C1,C2,···,Ck},先给出几个有关簇内或簇间距离的定义。(1)簇内样本平均距离,定义为:(2)簇内样本最大距离,定义为:(3)两族样本之间的最小距离,定义为:(4)两簇中心点之间的距离,定义为: 聚类的基本原理于是,可定义两个常用的聚类性能度量内部指标。(1)DB 指标(Davies-Bouldin Index,DBI),定义为:(2)Dunn 指标(Dunn Index.DI,定义为:不难发现,DBI 的值越小越好,而 DI的值则越大越好。 02k-均值算法 k-均值算法1.k-均值算法的基本原理k-均值算法的基本思想是:首先,选择无个点作为质心,按照某种聚类准则,例如最小距离聚类准则,使样本点向各质心聚集,从而得到初始聚类。然后,判断初始聚类是否合理,若不合理,则修改聚类,如此反复修改聚类迭代,直到合理为止。 k-均值算法极小化式(10.18)并不容易,得到其极小解需考查样本集 C 所有可能的划分,是一个 NP 难问题。因此,为了降低复杂度,k-均值算法采用的是贪心策略,通过迭代优化来近似求解式(10.18)。下面写出 -均值算法的详细步骤。算法 10.1(k-均值算法) k-均值算法2.k-均值算法的MATLAB实现在 MATLAB 中可直接调用函数 kmeans(·,·)来解决 均值算法的聚类问题,其调用格式为:输入、输出参数的含义如下。输入参数:X是 nxm 的数据矩阵,每一行是一个样本,每一列是样本的一个特征值:k 表示将 X 划分为几个簇,为整数。 k-均值算法参数对 Name,Value 的取值有三种:(1)Name=Distance,Value-sqEuclidean’(欧氏距离)cityblock’(街区距离)等。(2)N

您可能关注的文档

文档评论(0)

文心教育 + 关注
实名认证
文档贡献者

付费阅读后,再购买,只需补差价。

1亿VIP精品文档

相关文档