- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四讲聚类分析
第三讲 聚类分析
第一节 什么是聚类
1.1 聚类把所有的观察对象分类:使性质相近的对象分在同一个类,性质差异较大分在不类。也叫Q型聚类。
1.2 聚类过程中,“性质”由一组变量(variables)代表,把它用一个p维向量表示:
1.3 聚类过程中,两个观察对象和性质的“差异”程度由它们之间的距离dij来度量。
1.4 还有另一种聚类,是把变量(variables)作为分类对象。这种聚类用在变量数目比较多,且相关性比较强的情形。目的是将性质相近的变量聚为同一个类,找出代表变量。这种聚类叫R型聚类。。
第二节 距离与相似系数
2.1 点(观察值,case)到点的距离
设有两个p维观察值(点):
它们的距离有不同度量方式:
1.欧氏距离(Euclidian Distance)
2.欧氏距离平方(Squared Euclidian Distance)
这是SPSS系统默认的距离。
3.闵可夫斯基距离(Minkowski)
其中参数q为用户选项。
4.切比雪夫距离(Chebyshev)
5.布洛克距离(Block)
6.自定义距离(Customized)
其中参数q、r为用户选项。
以上距离越小,表示个体和的性质越相近。
2.2 相似系数
1.皮尔逊相似系数(Pearson)
2.夹角余弦(Cosine)
相似系数值越大,表示观察对象性质越相近。
2.3 类(group)与类之间的距离
类指观察值的集合。两个类之间的距离,是用这两个类的特殊点之间的距离来定义。
Ga和Gb以下方法表示这两个类之间的距离:
1.最短法
2.最长法
3.重心法
4.类平均法
5.离差平方和法
第三节 数据的中心化与标准化
在聚类的时候,由于表示聚类特征的变量往往具有不同的量纲,因此聚类前经常要将其数据标准化。标准化后的数据是无量纲的。SPSS系统默认无标准化。
以下假设变量X的观察值为:X1,X2,…,Xn;它的均值和标准差分别记为和S。
3.1 中心化
中心化以后的数据均值为0。
3.2 正规化
易见,正规化以后的数据最小值为0。
3.3 标准化
1.标准差标准化(z-score)
标准差标准化后的数据均值为0,标准差为1。
2.极差标准化
式中的R为观察值的极差(最大—最小)。极差标准化后的数据均值为0,极差为1。
3.极差正规化
变换后的数据最小值为0,极差为1。
第四节 系统聚类法(Hierarchical Clustering)
4.1 系统聚类法的算法
1.取每个观察值为一个类;
2.将性质最近的两个类合并为一个类,类的数目减1;
3.如类的数目(2,转2);
4.结束聚类过程。
4.2 系统聚类法举例
4.3 聚类谱系图(Dendrogram) 略。
第五节 系统聚类的不同方法介绍
系统聚类由于使用的类间距离不同,产生了不同的聚类方法。主要方法有:
1.组间平均距离法(Between-Groups Linkage)
使用类平均法计算类间距离。这是SPSS系统默认的方法。
2.最短距离法(Nearest Neighbor)
使用最短法计算类间距离。
3.最长距离法(Furthest Neighbor)
使用最长法计算类间距离。
4.重心法(Centroid Clustering)
使用重心法计算类间距离。
5.离差平方和法(Ward’s Mathod)
使用离差平方和法计算类间距离。
第六节 系统聚类举例
例 数据data06,将所列10个西部省市自治区按五项经济指标:国内生产总值(gdp)、工业总产值(industry)、农林牧渔总产值(agri)、全社会固定资产投资(gdinvest)和全社会最终消费(consume)用系统聚类法分为三类,距离采用Euclidian distance,数据作z-score标准化。并从平均值角度说明这三类地区的区别。
在Hierarchical Cluster Analysis对话框中,将上述五个变量输入Variable(s),点击Statistics ,在该对话框的Single solution中键入3,返回;点击Save ,在该对话框的Single solution中键入3,返回;点击Method ,在该对话框的Measure中Interval下拉菜单中选择Euclidian Distance,再在Transform之Standardize的下拉菜单中选择z-score。返回。OK ,得:
这是一张聚类过程表,其中的Stage表示步骤,Cluster Combine表示被合并的类,
您可能关注的文档
最近下载
- 《第二节 物联网在生活中的应用》优质课件.pptx VIP
- 2023山西长治市上党区招聘司法协理员(15人)笔试备考试题及答案解析.docx VIP
- 贵阳臻芯科技有限公司半导体研发生产项目环评报告.docx VIP
- 广东省东莞中学、广州二中、惠州一中、深圳实验、珠海一中、 中山纪念中学2024届高三第三次六校联考 数学.docx
- 惊恐障碍诊治ppt课件【53页】.pptx
- 贵阳臻芯科技有限公司视显光电芯片生产研发项目环评报告.docx VIP
- 北京市新质生产力重点产业领域人力资源开发目录、技能人才需求目录(2024年版).pdf VIP
- 乡镇2021年国际减灾日宣传活动总结.docx
- 药理学实验课 课件.ppt
- 对区委班子成员的点评材料.docx VIP
文档评论(0)