R语言-聚类讲解.pptx

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类的基本步骤;关于聚类:聚类应用领域;关于聚类:探索性的分析方法;聚类的分类: 划分聚类方法 层次聚类方法 密度聚类方法 网格聚类方法 模型聚类方法;在基于划分的聚类中,任务就是将数据划分成K个不相交的点集,使每个子集中的点尽可能同质。 基于划分的方法 ,其代表算法有 k-means算法、 K-medoids等;k-means 算法;k-means优缺点;层次聚类方法;层次聚类优缺点;1、距离的定义;2、常用的距离;明氏距离;;明考夫斯基距离有以下两个缺点:;(2) 标准化的欧氏距离;; (3)马氏距离 马氏距离是由印度著名统计学家马哈拉诺比斯(Mahalanobis)所定义的一种距离,其计算公式为: ;马氏距离又称为广义欧氏距离。 马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,此时马氏距离就是标准化的欧氏距离。 马氏距离不受指???量纲及指标间相关性的影响 ;系统聚类法;系统聚类法的基本步骤: 1.???计算n个样品两两间的距离 ,记作D= 。 2.?构造n个类,每个类只包含一个样品。 3.?合并距离最近的两类为一新类。 4.?计算新类与各当前类的距离。 5.?重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。 6.?画聚类谱系图。 7.?决定类的个数和类。; 最短距离法 最长距离法 中间距离法 重心法 类平均法 离差平方和法(Ward法);定义类p与q之间的距离为两类最近样品的距离,即 ;设类p与 q合并成一个新类,记为k,则k与任一类r 的距离是;例 最短距离法 ; ;3、计算新类⑥与各当前类的距离,;为最小, ⑦=;6、按聚类的过程画聚类谱系图 ;;;四、重心法(Centroid);五、类平均法(Average);六、差平方和法(Ward法 );?;直观上容易想到把两群样品聚为一大群,大群的离差平方和将超过原来两个群的离差平方和之和。 ;动态聚类法----K均值法;动态聚类法 ;选择凝聚点; 用一个简单的例子来说明动态聚类法的工作过程。例如我们要把图中的点分成两类。快速聚类的步骤: 1、随机选取两个点 和 作为凝聚点。 2、对于任何点 ,分别计算 3、若 ,则将 划为第一类,否则划给第二类。于是得图( )的两个类。 ;; (e) 第二次分类 ;动态聚类法 ;选择凝聚点和确定初始分类;第一、选择凝聚点 第二、初始分类 对于取定的凝聚点,视每个凝聚点为一类,将每个样品根据定义的距离向最近的凝聚点归类。 第三、修改分类 得到初始分类,计算各类的重心,以这些重心作为新的凝聚点,重新进行分类,重复步骤2,3,直到分类的结果与上一步的分类结果相同,表明分类已经合理为止。; 划分聚类方法 层次聚类方法 密度聚类方法 :基于密度的聚类方法以数据集在空间分布上的稠密程度为依据进行聚类,无需预先设定簇的数量,因此特别适合对于未知内容的数据集进行聚类。 网格聚类方法 模型聚类方法;基于密度方法的聚类;基于密度方法的聚类- DBSCAN;传统基于中心的密度定义为: 数据集中特定点的密度通过该点ε半径之内的点计数(包括本身)来估计。 显然,密度依赖于半径。 ;基于密度方法的聚类- DBSCAN 所用到的基本术语;基于密度方法的聚类- DBSCAN 所用到的基本术语;基于密度方法的聚类- DBSCAN 所用到的基本术语;DBSCAN算法概念示例

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档