- 1、本文档共54页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
12.聚类概论
聚类的基本步骤
什么是类:粗略地讲,相似样品(或指标)的集合成为类。
聚类的两个基本步骤
邻近度度量的选择:检验每一对观测值(对象)取值的相似性。一个相似性(邻近度)的度量定义为对象间的“接近”程度。越接近越同质。
组别构建算法的选择:根据邻近度的度量,被分配到各组的对象间的差别变大,而被分配到同一组的观测值应尽可能接近。
关于聚类:聚类应用领域
仓储管理:对不同类的商品在入库过程中进行聚类储存
营销: 发现客户集群并进行直销和重组
天文: 发现相似恒星群以及星系群
地震研究: 观测到的地震震源应聚集在大陆断层带
基因分析: 发现具有相似表达式的基因群
…
关于聚类:探索性的分析方法
作为一种探索性技术,Everitt (1993)评价到:“聚类方法基本上是用于产生一些假设而不是检验假设”。
有多少作聚类分析的人就有多少聚类方法。
聚类的分类:
划分聚类方法
层次聚类方法
密度聚类方法
网格聚类方法
模型聚类方法
在基于划分的聚类中,任务就是将数据划分成K个不相交的点集,使每个子集中的点尽可能同质。
基于划分的方法 ,其代表算法有 k-means算法、 K-medoids等
划分聚类方法
k-means 算法
k-means 算法基本步骤
从 n个数据对象任意选择 k 个对象作为初始聚类中心;
根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;
重新计算每个(有变化)聚类的均值(中心对象);
计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则回到步骤2。
k-means优缺点
主要优点:
是解决聚类问题的一种经典算法,简单、快速。
对处理大数据集,该算法是相对可伸缩和高效率的。
当结果簇是密集的,它的效果较好。
主要缺点
在簇的中心(平均值)被定义的情况下才能使用。
必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。
不适合于发现非凸面形状的簇或者大小差别很大的簇。而且,它对于“躁声”和孤立点数据是敏感的。
层次聚类方法
层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。具体又可分为:
凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。
分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。
层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。
层次聚类优缺点
层次聚类方法是不可逆的,也就是说,当通过凝聚式的方法将两组合并后,无法通过分裂式的办法再将其分离到之前的状态,反之亦然。
另外,层次聚类过程中调查者必须决定聚类在什么时候停止,以得到某个数量的分类。
在不必要的情况下应该小心使用层次聚类方法。
1、距离的定义
距离的定义有很多,但是必须遵循一定的规则。假设 表示样本 之间的距离,则一般要求它满足如下条件:
(1) 对一切i,j都大于等于0
(2) 等于0当且仅当i=j
(3) 对一切i和j可以互换
(4)
如果距离的定义仅满足前三条,则称此距离为广义距离。常用的距离有,明氏距离,兰氏距离,马氏距离,斜交空间距离,列名变量的相似性度量。
2、常用的距离
明氏距离
特别地,当k=1时,即为绝对值距离
(1) 明氏距离
明氏距离
当k=2时,即为欧氏距离
当k=∞时,即为切比雪夫距离
1
2
3
4
5
20
18
10
4
4
7
10
5
5
3
25.2
36.3
28.9
11.5
17
欧氏距离
切比雪夫距离
例:
明考夫斯基距离有以下两个缺点:
①明氏距离的数值与指标的量纲有关。当各变量的测量值相差悬殊时,常发生“大数吃小数”的现象,为消除量纲的影响,通常先将每个变量进行标准化。
②明氏距离的定义没有考虑各个变量之间相关性的影响。
年龄
收入
家庭人口数
甲
30
3000
1
乙
40
3200
3
(2) 标准化的欧氏距离
(3)马氏距离
马氏距离是由印度著名统计学家马哈拉诺比斯(Mahalanobis)所定义的一种距离,其计算公式为:
马氏距离又称为广义欧氏距离。
马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,此时马氏距离就是标准化的欧氏距离。
马氏距离不受指标量纲及指标间相关性的影响
系统聚类法
系统聚类法的基本思想
先将n个样品各自看成一类,然后规定样品之间的“距离”和
您可能关注的文档
- 12-社保知识(2012年3月第十版)概论.ppt
- 12.11记叙文阅读专项一学生版概论.doc
- 11饮食原则概论.pptx
- 12.1、物业礼仪礼节手册概论.doc
- 12.1.4_函数图像的识别第4课时概论.ppt
- 12.1杠杆j概论.pptx
- 12.1动能势能机械能概论.ppt
- 12.2.3系统抽样概论.ppt
- 12.2.3多项式乘多项式习题课概论.ppt
- 12.1.1杠杆概论.ppt
- GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs).pdf
- 中国国家标准 GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs).pdf
- 《GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs)》.pdf
- GB/T 39560.302-2024电子电气产品中某些物质的测定 第3-2部分:燃烧-离子色谱法(C-IC)筛选聚合物和电子件中的氟、氯和溴.pdf
- 中国国家标准 GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样.pdf
- 中国国家标准 GB/T 39560.302-2024电子电气产品中某些物质的测定 第3-2部分:燃烧-离子色谱法(C-IC)筛选聚合物和电子件中的氟、氯和溴.pdf
- GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样.pdf
- 《GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样》.pdf
- 《GB/T 39560.303-2024电子电气产品中某些物质的测定 第3-3部分:配有热裂解/热脱附的气相色谱-质谱法(Py/TD-GC-MS)筛选聚合物中的多溴联苯、多溴二苯醚和邻苯二甲酸酯》.pdf
- 中国国家标准 GB/T 39560.303-2024电子电气产品中某些物质的测定 第3-3部分:配有热裂解/热脱附的气相色谱-质谱法(Py/TD-GC-MS)筛选聚合物中的多溴联苯、多溴二苯醚和邻苯二甲酸酯.pdf
最近下载
- 人教版(2019)选择性必修第三册Unit 2 Healthy Lifestyle Reading for Writing 课件(内镶嵌视频).pptx VIP
- 国企混改合作协议范本.docx
- 体检系统操作培训.ppt VIP
- 东华云解决方案.docx VIP
- 奥铃4J28TC国五SCR系统电控原理图.pdf VIP
- INOVANCE汇川-SV600N系列伺服调试手册-中文.PDF
- 2019年大众宝来Bora原厂维修手册电路图.pdf
- 大猫英语分级阅读 六级1 Arthur's Fantastic Party课件.ppt
- 2024人教版新教材初中英语七年级上册新课程解读课件.pptx
- 四校八大名校卷 上海市复兴高级中学2021-2022学年高二下学期3月考试英语试题 逐题详解.docx VIP
文档评论(0)