- 1、本文档共130页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
聚类分析
Contents聚类分析介绍01层次聚类02密度聚类03谱聚类04
聚类分析介绍什么是聚类?(cluster)
聚类分析介绍什么是聚类?(cluster)聚类就是针对大量数据或者样品根据数据本身的特性研究数据分类规则及方法(无监督方式),并遵循这个分类方法实现“同类相同、异类相异”。
聚类分析介绍什么是聚类分析?
(clusteranalysis)把“对象”分成不同的类别这些类不是事先给定的,而是直接根据数据的特征确定的把相似的东西放在一起,从而使得类别内部的“差异”尽可能小,而类别之间的“差异”尽可能大聚类分析就是按照对象之间的“相似”程度把对象进行分类
聚类分析介绍什么是聚类分析?(两种分类方式)聚类分析的“对象”可以是所观察的多个样本,也可以是针对每个样本测得的多个变量按照变量对所观察的样本进行分类称为Q型聚类按照多项经济指标(变量)对不同的地区(样本)进行分类按照样本对多个变量进行分类,则称为R型聚类按照不同地区的样本数据对多个经济变量进行分类两种聚类没有什么本质区别,实际中人们更感兴趣的通常是根据变量对样本进行分类(Q型聚类)
聚类分析介绍什么是聚类分析?(按什么分类)按对象的“相似”程度分类根据样本的观测数据测度变量之间的相似性程度可以使用夹角余弦、Pearson相关系数等工具,也称为相似系数变量间的相似系数越大,说明它们越相近根据变量来测度样本之间的相似程度则使用“距离”把离得比较近的归为一类,而离得比较远的放在不同的类
聚类分析介绍相似性的度量
(样本点间距离的计算方法)在对样本进行分类时,度量样本之间的相似性使用点间距离点间距离的计算方法主要有欧氏距离(Euclideandistance)平方欧氏距离(SquaredEuclideandistance)曼哈顿距离(Blockdistance)切比雪夫距离(Chebychevdistance)马氏距离(Minkovskidistance)最常用的是平方欧氏距离
聚类分析介绍保险业土地使用市场营销城市规划帮市场分析人员从客户基本库中发现不同的客户群,从而可以对不同的客户群采用不同营销策略在地球监测数据库中,发现相同的土地使用区域发现汽车保险中索赔率较高的客户群根据房子的类型、价值和地理位置对其进行分组地震研究将观测到的震中点沿板块断裂带进行聚类最终可以得出地震高危区聚类分析的实际应用
聚类分析介绍聚类分析的算法分类根据处理复杂分布的,高维的或者混合属性的大规模数据方法进行大致分类基于网格(Grid-Based)STING算法、CLIQUE算法等图论谱聚类基于划分(Partitioning)K-均值聚类,K-中心聚类等基于层次(Hierarchical)BIRCH算法、CURE算法、CHAMELEON算法等基于密度(Density-Based)DBSCAN算法、OPTICS算法、DENCLUE算法等基于模型(Model-Based)统计学的COBWEB聚类和神经网络的SOM聚类模糊理论相关领域结合的聚类技术FCM聚类自然计算相关领域结合的聚类技术遗传聚类、克隆选择聚类
Contents聚类分析介绍01层次聚类02密度聚类03谱聚类04
层次聚类层次的聚类方法将数据对象组成一棵聚类的树根据层次分解是自底向上,还是自顶向下形成,层次的聚类方法可以进一步分为凝聚的(agglomerative)和分裂的(divisive)层次聚类纯粹的层次聚类方法的聚类质量受限于如下特点:一旦一个合并或分裂被执行,就不能修正最近的研究集中于凝聚层次聚类和迭代重定位方法的集成使用距离矩阵作为聚类标准.该方法不需要输入聚类数目k,但需要终止条件
层次聚类凝聚的(agglomerative)和分裂的(divisive)层次聚类图示Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)
层次聚类四个广泛采用的簇间距离度量方法最小距离:dmin(Ci,Cj)=minp∈Ci,p’∈Cj|p-p’|最大距离:dmax(Ci,Cj)=maxp∈Ci,p’∈Cj|p-p’|平均值的距离:dmean(Ci,Cj)=|mi-mj|平均距离(簇的直径D):davg(Ci,Cj)=∑p∈Ci∑p’∈Cj|p-p’|/ninj其中,|p-p’|是两个对象p和p’之间的距离 mi是簇Ci的平均值,ni是簇Ci中对象的数目
层次聚类簇与簇之间邻近度的定义:每个簇中的点数不一定相等,如何计算两个不同簇之间的邻近度
文档评论(0)