- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章聚类分析7
第六章 聚类分析
§6.1 引言
§6.2 距离和相似系数
§6.3 系统聚类法
§6.4 动态聚类法
1
§6.1 引言
聚类分析:将分类对象分成若干类,相似的归为同一类,不相似的归为不同的类。
聚类分析和判别归类有着不同的分类目的,彼此之间既有区别又有联系。
聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。
2
相似性的不同定义
3
§6.2 距离和相似系数
相似性度量:距离和相似系数。
样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。
变量的测量尺度:间隔、有序和名义尺度。
间隔变量:变量用连续的量来表示,如长度、重量、速度、温度等。
有序变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。
名义变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。
4
对于间隔变量,距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。
本章主要讨论具有间隔尺度变量的样品聚类分析方法。
一、距离
二、相似系数
5
一、距离
设x =(x1,x2,⋯,xp)′ 和y =(y1,y2,⋯,yp)′为两个样品,则所定义的距离一般应满足如下三个条件:
(i)非负性:d(x, y)≥0,d(x, y)=0当且仅当x=y;
(ii)对称性:d(x, y) = d(y, x);
(iii)三角不等式:d(x, y)≤d(x,z) + d(z, y)。
6
常用的距离
1.明考夫斯基(Minkowski)距离
2.兰氏(Lance和Williams)距离
3.马氏距离
4.斜交空间距离
7
1.明考夫斯基距离
明考夫斯基距离(简称明氏距离):
这里q0。
明氏距离的三种特殊形式:
(i)当q=1时, ,称为绝对值距离,常被形象地称作“城市街区”距离;
(ii)当q=2时, ,这是欧氏距离,它是聚类分析中最常用的一个距离;
(iii)当q=∞时, ,称为切比雪夫距离。
8
绝对值距离图示
9
对各变量的数据作标准化处理
当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令
其中 和sii分别为xi的样本均值和样本方差。
10
2.兰氏距离
当所有的数据皆为正时,可以定义x与y之间的兰氏距离为
该距离与各变量的单位无关,且适用于高度偏斜或含异常值的数据。
11
3.马氏距离
x和y之间的马氏距离为
其中S为样本协差阵。
12
4.斜交空间距离
x和y之间的斜交空间距离定义为
其中rij是第i个变量与第j个变量间的相关系数。
当p个变量互不相关时,该距离即为欧氏距离的1/p倍。
13
名义尺度变量的一种距离定义
例6.2.1 某高校举办一个培训班,从学员的资料中得到这样六个变量:性别(x1),取值为男和女;外语语种(x2),取值为英、日和俄;专业(x3),取值为统计、会计和金融;职业(x4),取值为教师和非教师;居住处(x5),取值为校内和校外;学历(x6),取值为本科和本科以下。
现有两名学员:
x=(男,英,统计,非教师,校外,本科)′
y=(女,英,金融,教师,校外,本科以下)′
一般地,若记配合的变量数为m1,不配合的变量数为m2,则它们之间的距离可定义为
故按此定义,本例中x 与y 之间的距离为2/3。
14
二、相似系数
变量之间的相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。
相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。
聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。
15
相似系数一般需满足的条件
(1)cij=±1,当且仅当xi=axj+b,a(≠0) 和b是常数;
(2)|cij|≤1,对一切i,j;
(3)cij=cji,对一切i,j。
16
两个向量的夹角余弦
17
1.夹角余弦
变量xi与xj的夹角余弦定义为
它是Rn中变量xi的观测向量(x1i,x2i,⋯,xni)′与变量xj的观测向量(x1j,x2j,⋯,xnj)′之间夹角θij的余弦函数,即cij(1)=cosθij。
18
2.相关系数
变量xi与xj的相关系数为
如果变量xi与xj是已标准化了的,则它们间的夹角余弦就是相关系数。
19
相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。
由距离来构造相似系数总是可能的,如令
这里dij为第i个样品与第j个样品的距离,显然cij满足
文档评论(0)