- 1、本文档共35页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
主编:费宇
中国人民大学出版社;第7章聚类分析;第7章聚类分析;7.1相似性度量;Q型聚类;常用的几种距离
欧式距离:
绝对距离:
切氏距离:
;明氏距离:
马氏距离:
兰氏距离:
其中;数据阵X=(xij)的列向量间相关系数
其中p为变量数,n为样品数.
;数据阵X=(xij)的列向量间的夹角余弦:
;7.2系统聚类法;设Gs和Gt为系统聚类过程中生成的任意两个子类,dij为Gs中第i样品与Gt中第j样品之间的距离,Dst为Gs与Gt之间的距离.这时,根据具体情况,可使用不同的距离度量来描述子类与子类之间的距离.
(1)最小距离法:;(2)最大距离法:
(3)中间距离法:
其中
(4)重心距离法:
其中,和分别表示Gs和Gt的重心.;(5)类平均距离法:
(6)离差平方和法(Ward法):
其中,;设Gs和Gt为两个子类,用rij表示Gs中第i个变量与Gt中第j个变量之间的相似系数,则Gs与Gt间的相似度通常用Rst来度量:
注意:也可以将变量间的相似系数cij转化成变量间的距离dij(例如)来聚类.
;例7.1(数据文件为exam7.1)从湖南邓阜仙岩体采集了七块花岗岩样品,分别测得其五种化学成分(见表7-1),试用系统聚类的最小距离法和最大距离法对这七块花岗岩样品进行聚类.;解首先采用最小距离法进行聚类,将七块花岗岩样品看成7个基本类,它们之间的距离(R计算程序见后)如表7—2所示.;
表4-2七块花岗岩样品按最小距离法的合并顺序;
表4-3七块花岗岩样品按最大距离法的合并顺序;19;20;从表7-1和图7-1可以看出:
若取合并距离为2.2(上虚线),则7块样品可以分为两类:
第一类为{1,2},第二类为{3,4,5,6,7}.
取合并距离为1(下虚线),则7块样品可以分为三类:
第一类为{1,2},第二类为{3,4,5},第三类为{6,7}.;HC1-hclust(d,method=complete)#采用最大距离法聚类
x11()#另开一个绘图窗口
plot(HC1,hang=-1)#绘制最大距离法聚类树状图(图7-2)
rect.hclust(HC1,k=3,border=red)#用红色矩形框出3个分类;7.3k均值聚类法;例7.2(数据文件为exam7.2);2023/11/14;#金砖国家和七国集团近七年总发电量的k均值聚类???析.
setwd(C:/data)#设定工作路径
exam7.2-read.csv(exam7.2.csv,header=T)#将exam7.2数据读入
d7.2=exam7.2[,-1]#exam7.2的第一列为国家名,不是数值先去掉
rownames(d7.2)=exam7.2[,1]#用exam7.2的第一列为d7.2的行重新命名
KM4-kmeans(d7.2,4,nstart=20,algorithm=“Hartigan-Wong”)
#聚类个数先取为4,初始随机集合个数取为20,算法为Hartigan-Wong
sort(KM4$cluster)#对分类结果进行排序并查看
中国俄罗斯印度日本美国巴西南非加拿大德国法国英国意大利
122234444444;KM5-kmeans(d7.2,5,nstart=10,algorithm=Hartigan-Wong)
#聚类个数取为5
sort(KM5$cluster)#对分类结果进行排序并查看分类情况
中国美国印度俄罗斯日本南非英国意大利巴西加拿大德国法国
112334445555;28;7.4其他聚类函数;2023/11/14;31;2023/11/14;33;2023/11/
您可能关注的文档
- 机械设计基础 第2版-电子课件 第04章 凸轮机构与间歇运动机构.pdf
- 《多元统计分析——基于R(第3版)》课件 第2章-多元数据描述与展示.pptx
- 《多元统计分析——基于R(第3版)》课件 第3章-多元正态分布.pptx
- 《多元统计分析——基于R(第3版)》课件 第4章-多元正态总体均值向量和协方差矩阵的假设检验.pptx
- 《多元统计分析——基于R(第3版)》课件 第8章-判别分析.pptx
- 《多元统计分析——基于R(第3版)》课件 第9章-主成分分析.pptx
- 《多元统计分析——基于R(第3版)》课件 第11章-对应分析.ppt
- 《多元统计分析——基于R(第3版)》课件 第12章-典型相关分析.ppt
- 《多元统计分析——基于R(第3版)》课件 第13章-多维标度分析.pptx
- 信息经济学习题.ppt
最近下载
- 2024年北京市东城区八年级初二(下)期末道德与法治试卷(含答案).pdf
- 网店运营推广 子任务3.1.1:认识SEO工作原理 3-1-1 SEO工作原理.pptx
- 《第十二夜(莎士比亚剧本插图珍藏本)》—[英]莎士比亚著;朱生豪译.pdf
- 学习中国工会第十八次代表大会精神知识竞答活动试卷含答案.doc VIP
- WW-T 0016-2008馆藏文物保存环境质量检测技术规范.pdf VIP
- 2014年永固电力金具样本.pdf
- 食品制造公司安全风险分级管控清单.docx VIP
- 宏观经济学二十五讲中国视角.pptx VIP
- 2024年秋新人教版一年级上册数学全册教案(新教材).docx
- 食品行业安全风险分级管控清单(台账).doc VIP
文档评论(0)