- 1、本文档共83页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;第7章聚类分析;第7章聚类分析;7.1相似性度量;Q型聚类;常用的几种距离
欧式距离:
绝对距离:
切氏距离:
;明氏距离:
马氏距离:
兰氏距离:
其中;数据阵X=(xij)的列向量间相关系数
其中p为变量数,n为样品数.
;数据阵X=(xij)的列向量间的夹角余弦:
;7.2系统聚类法;设Gs和Gt为系统聚类过程中生成的任意两个子类,dij为Gs中第i样品与Gt中第j样品之间的距离,Dst为Gs与Gt之间的距离.这时,根据具体情况,可使用不同的距离度量来描述子类与子类之间的距离.
(1)最小距离法:;(2)最大距离法:
(3)中间距离法:
其中
(4)重心距离法:
其中,和分别表示Gs和Gt的重心.;(5)类平均距离法:
(6)离差平方和法(Ward法):
其中,;设Gs和Gt为两个子类,用rij表示Gs中第i个变量与Gt中第j个变量之间的相似系数,则Gs与Gt间的相似度通常用Rst来度量:
注意:也可以将变量间的相似系数cij转化成变量间的距离dij(例如)来聚类.
;例7.1(数据文件为exam7.1)从湖南邓阜仙岩体采集了七块花岗岩样品,分别测得其五种化学成分(见表7-1),试用系统聚类的最小距离法和最大距离法对这七块花岗岩样品进行聚类.;解首先采用最小距离法进行聚类,将七块花岗岩样品看成7个基本类,它们之间的距离(R计算程序见后)如表7—2所示.;
表4-2七块花岗岩样品按最小距离法的合并顺序;
表4-3七块花岗岩样品按最大距离法的合并顺序;;;从表7-1和图7-1可以看出:
若取合并距离为2.2(上虚线),则7块样品可以分为两类:
第一类为{1,2},第二类为{3,4,5,6,7}.
取合并距离为1(下虚线),则7块样品可以分为三类:
第一类为{1,2},第二类为{3,4,5},第三类为{6,7}.;HC1-hclust(d,method=complete)#采用最大距离法聚类
x11()#另开一个绘图窗口
plot(HC1,hang=-1)#绘制最大距离法聚类树状图(图7-2)
rect.hclust(HC1,k=3,border=red)#用红色矩形框出3个分类;7.3k均值聚类法;例7.2(数据文件为exam7.2);;#金砖国家和七国集团近七年总发电量的k均值聚类分析.
setwd(C:/data)#设定工作路???
exam7.2-read.csv(exam7.2.csv,header=T)#将exam7.2数据读入
d7.2=exam7.2[,-1]#exam7.2的第一列为国家名,不是数值先去掉
rownames(d7.2)=exam7.2[,1]#用exam7.2的第一列为d7.2的行重新命名
KM4-kmeans(d7.2,4,nstart=20,algorithm=“Hartigan-Wong”)
#聚类个数先取为4,初始随机集合个数取为20,算法为Hartigan-Wong
sort(KM4$cluster)#对分类结果进行排序并查看
中国俄罗斯印度日本美国巴西南非加拿大德国法国英国意大利
122234444444;KM5-kmeans(d7.2,5,nstart=10,algorithm=Hartigan-Wong)
#聚类个数取为5
sort(KM5$cluster)#对分类结果进行排序并查看分类情况
中国美国印度俄罗斯日本南非英国意大利巴西加拿大德国法国
112334445555;;7.4其他聚类函数;;;;;;;
;第8章判别分析;;8.1距离判别;;;;例8.1(冠心病例指标判断);;;;多个总体的距离判别;8.2
您可能关注的文档
- 《多元统计分析——基于R(第3版)》课件 第3、4章-多元正态分布、多元正态总体均值向量和协方差矩阵的假设检验.pptx
- 《多元统计分析——基于R(第3版)》课件 第9--11章-主成分分析、因子分析、对应分析.pptx
- 《多元统计分析——基于R(第3版)》课件 第11--13章 对应分析、典型相关分析、多维标度分析.ppt
- 会计学 客观题 第1章 概述.docx
- 会计学 客观题 第2章 会计要素与会计等式.docx
- 会计学 客观题 第3章 账户设置.doc
- 会计学 客观题 第4章 复式记账.docx
- 会计学 客观题 第5章 工业制造企业主要经济业务的账务处理.docx
- 会计学 客观题 第6章 会计凭证.docx
- 会计学 客观题 第7章 会计账簿.docx
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
文档评论(0)