- 1、本文档共80页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2)利用相关作聚类分析 例:设有n个样品,每个样品测得8个指标X1,X2,…,X8。要求对8个指标进行聚类,聚类统计量采用相关系数 设相关矩阵R = ( )为: 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 顺序 连结样品 相似系数 1 2 3 4 5 6 7 X1 X6 0.99 X1 X6 X3 0.96 X2 X4 0.93 X2 X4 X7 0.68 X5 X8 0.49 X1 X6 X3 X2 X4 X7 0.47 X1 X6 X3 X5 X8 -0.94 X2 X4 X7 R= 按矩阵R中数值对8个指标(按四个原则)进行聚类: 1)记下矩阵中的最大值 ,划去第6行第6列 2)记下矩阵中的最大值 ,划去第3行第3列 以此类推。 作聚类图: X1 X6 X3 X4 X2 X7 X5 X8 0.99 0.96 0.93 0.68 0.49 0.47 -0.94 主要城市日照时数 注:连续变量 SPSS提供不同类间距离的测量方法 1、组间连接法 2、组内连接法 3、最近距离法 4、最远距离法 5、重心法 6、中位数法 7、Ward最小偏差平方和法 观测量概述表 聚类步骤,与图结合看! 4、5 聚类方法有系统聚类和逐步聚类,输入数据集可以是普通数据集、相关矩阵(CORR过程产生)或协方差矩阵(FACTOR等过程产生)。SAS提供的聚类过程有: 1、CLUSTER对坐标数据或距离数据的观测值用11种方法进行系统聚类,当观测值数太多时,不宜直接采用。 2、FASTCLUS对于坐标数据,用K-均值法对观测值进行逐步聚类,当观测值很多时,则先用FACTCLUS过程对其进行初步聚类,然后再用CLUSTER过程进行系统聚类。 3、VARCLUS通过斜交多组分量分析对变量进行系统聚类或逐步聚类。 4、TREE为CLUSTER或VARCLUS过程产生的输出画树状图。 CLUSTER过程 开始每个观测值自成一类,然后求两两之间的距离,将距离最近的两个观测值合成一类。这个过程一直进行下去,每次减少一类,直到合成一类为止。 聚类方法有11种,可根据问题的性质选用,它们的区别在于怎样计算两类之间的距离。 METHOD=指定方法 AVERAGE(平均法)、CENTROID(重心法)、COMPLETE(最大距离法)、DENSITY(密度法)、MEDIAM(中位数法)等 美国十个城市的分类 根据两个城市见航空距离将美国十个大城市作分类 聚类分析SAS程序: 原始数据是两两之间距离的三角阵(而不是坐标) 输入格式 55列为城市 15位 平均法 重心法 最小距离法 输出F及t统计量 观测值之间距离的均方根 输出结果: 类数 指出被合并的类 新类中的观测值数 类间距离除以观测值间距离均方根得来 F、t**2峰值(起伏)越大说明分类显著 研究各种饮料在市场消费的分配规律,试确定各种饮料消费类型 * 聚类分析 聚类分析是研究(样品或指标)分类问题的一种多元统计方法。类是指相似元素的集合。 分类: 1、系统聚类法------(分层聚类)系统聚类法是应用最广泛的一种 (Hierarchical Cluster过程) 1)、 聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为 一类。 2)、 分层聚类的方法可以用于样本聚类(Q)型,也可以用于变量聚类 (R型)。 2、非系统聚类法-----(快速聚类法----K-均值聚类法)(K-means Cluster) 3、两步聚类法-----一种探索性的聚类方法(TwoStep Cluster) K-均值聚类分析 K-means Cluster 又称为快速样本聚类法,是非系统聚类中最常用的聚类法。 优点: 是占内存少、计算量小、处理速度快,特别适合大样本
文档评论(0)