- 1、本文档共36页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
11. 聚类分析 11.2 层次聚类法 优缺点 优点 可对变量(样品)或记录进行聚类 变量可为连续或分类变量 提供了丰富的距离测量方法和结果表示方法(树状图) 缺点 由于它要反复计算距离,所以当样本量太大或变量较多时,其运算速度明显较慢。 11.2 层次聚类法 类间距离的定义 不同的类间距离的定义,构成了不同的层次聚类方法 11.2 层次聚类法 Furthest neighbor(最长距离法) Centroid clustering(重心法) 用两个类别的重心间的距离来表示两个类别间的距离 Median clustering(中位数法) Ward’s method(离差平方和法) 思想来自方差分析 使类中的离差平方和较小,而类间的离差平方和较大 基本操作 Analyze → Classify → Hierarchical Cluster 11.2 层次聚类法 11.2 层次聚类法 11.2 层次聚类法 11.2 层次聚类法 例11.1 现搜集了02年中国部分省市的国民经济数据,希望将这些省份归类,从而更好地了解各地区生活水平的差异。 数据的初步分析 5个指标的数量级各不相同,均值100.82 ~ 9377.11,标准差1.39 ~ 7165.65,表明量纲间很强的差异性。 11.2 层次聚类法 需要标准化。 11.2 层次聚类法 11.2 层次聚类法 11.2 层次聚类法 11.2 层次聚类法 11.2 层次聚类法 Pindex _ Revise = 各地区居民消费价格指数-100 11.2 层次聚类法 11.2 层次聚类法 Agglomeration Schedule (凝聚状态表) 第一步中,第3个样本(河北)和第17个样本(湖北)首先合并,其平方欧氏距离为0.111,该小类将在第2步用到; 第二步中,第一步聚成的小类(用该小类中第一个样本的记号3表示)和第12个样本(安徽)合并,其Ward距离为0.246,该小类将在第15步用到。 Dendrogram (树状图、谱系图) 最终类数的确定 11.2 层次聚类法 原则 各类的重心间距离应较大 各类所包含的个体数不应过多 分类数目应符合分析的目的 方法 距离-类数散点图(距离由凝聚状态表获得) 由下图知,随着类的不断凝聚、类数目的不断减少,类间距离在逐渐增大。 在聚成6类之前,类间距离增大的幅度较小,形成极为“陡峭的山峰”,但到3类后,类间的距离迅速增大,形成极为“平坦的碎石路”。 11.2 层次聚类法 根据类间距离小形成类的相似性大,类间距离大形成类的相似性小的原则,可找到“山脚”下的“拐点”碎石,将它作为确定分类数目的参考。 所以,本例可考虑聚成2类 ~ 6类,综合考虑分成5类较合适(类不大也不小,Frequency)。 11.2 层次聚类法 11.2 层次聚类法 最终类差异的显著性判断(Means) 各类别在5个变量上差异显著 11.2 层次聚类法 最终类的特征描述 第一类 高生活水平省市 上海、北京、天津等3个直辖市; 人均GDP、城镇居民和农村居民家庭平均每人全年消费支出远高于其它类别。 第二类 人口最多、生活水平一般省市 河北、湖北、安徽、湖南、江苏、山东、四川、河南等8省市; 平均人口远高于其它类别。 11.2 层次聚类法 第三类 人口较少、生活水平一般省市 广西、陕西、贵州、重庆、内蒙古、吉林、黑龙江、辽宁、山西、江西、云南、海南、西藏等13省市。 第四类 生活水平较高,平均物价水平降低的省市 浙江、广东、福建等3省市 第五类 人口稀少、生活水平低的省市 青海、宁夏、甘肃、新疆等4省市 11.2 层次聚类法 例11.2 现有7国裁判员以及热心观众分别给300名运动员的平均打分的数据,试分析各裁判员的打分标准是否有相似性。 R型聚类分析 11.2 层次聚类法 由冰柱图知,韩国和法国裁判员的打分相似性最强;其次是中国和罗马尼亚。 若聚成3类,则热心观众自成一类,美国、法国、韩国一类,俄罗斯、中国、罗马尼亚、意大利一类。 若要从上述裁判中选出3名具有代表性的裁判,则应从上述三类中各选一名代表。 即计算决定系数,选择其最大的作为代表。 所以可从热心观众、韩国、俄罗斯中各选一名代表。 11.2 层次聚类法 11.3 K-均值聚类法 基本思想 分析前首先确定具体的类别数,整个分析过程使用迭代的方式进行; 然后起步于一个初始的分类,通过不断的迭代把数据在不同类别间移动,直到最后达到一定的标准为止。 整个计算过程中不需要存储基本数据或者距离矩阵,因此不会出现多个互相嵌套的聚类结果,而计算速度也要快得多。 11.3 K-均值聚类法 K-Means聚类法的优缺点 优点 速度明显快于层次聚类,被称为快速聚类法。 事先指定了类
您可能关注的文档
- 《傅雷家书两则》 -1课件.ppt
- 《高等学校财务制度》修订总体情况课件.ppt
- 《管理信息系统》-2 信息与系统集成课件.ppt
- 《面对诱惑》——作文解读修改版课件.ppt
- 《女职工劳动保护特别规定》解读-石玉成课件.ppt
- 《生活与哲学》第一单元生活智慧与时代精神-新课件.ppt
- 《水煮三国》幻灯片.ppt
- 《统计学》期末复习课件.ppt
- 《温病条辩》叙幻灯片.ppt
- 《药物化学基础-中职药剂专业》第1章:绪论课件.ppt
- DB12 046.89-2011 产品单位产量综合电耗计算方法及限额 第89部分:手机 .docx
- DB12 046.88-2011 产品单位产量综合电耗计算方法及限额 第88部分:晶振 .docx
- DB12T 419-2010 无公害农产品 核桃栽培管理技术规范 .docx
- DB12T 417-2010 沙化和荒漠化监测技术规程.docx
- DB12T 449-2011 民用建筑四防门通用技术条件.docx
- DB12 046.100-2011 产品单位产量综合能耗计算方法及限额 第100部分: 果汁饮料 .docx
- DB12T 427-2010 葱姜蒜中205种农药多残留测定方法-GCMS法.docx
- DB12T 421-2010 有机农产品 甘薯有机栽培技术规范.docx
- DB12T 426-2010 蔬菜水果中205种农药多残留测定方法-GCMS法 .docx
- 《老年人身体康复》精品课件——项目6 中国传统康复技术.pptx
文档评论(0)