- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SPSS19实战之聚类分析
SPSS19.0实战之聚类分析
这篇文章与上一篇的回归分析是一次实习作业整理出来的。所以参考文献一并放在该文最后。CNBlOG网页排版太困难了,又不喜欢live writer……
聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数据做两种不同的类型的聚类;它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类方法也采用3种不同方法,来考察对比它们之间的优劣。由于没有样本数据,因此不能根据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类组间距离和组内聚类的大小。
分析数据依然采用线性回归所使用的标准化后的能源消费数据。
1.1 系统聚类
本次实验的系统聚类都是凝聚系统聚类,为了控制变量,都采用平方Euclidean距离。
1.1.1 最短距离聚类法
最短距离法聚类步骤如下:
规定样本间的距离,计算样本两两之间的距离,得到对称矩阵。开始每个样品自成一类。
选择对称矩阵中的最小非零元素。将两个样品之间最小距离记为D1,将这两个样品归并成为一类,记为G1。
计算G1与其他样品距离。重复以上过程直到所有样品合并为一类。
我们在SPSS中实现最短距离分析非常简单。单击“”--“” --“”。将弹出如图1-1所示的对话框,设置相应的参数即可。
图1-1 最短距离法
我们的数据已经做过标准化,在“转化值”--“标准化”选项上选无。
在统计量的聚类成员中选择“无”,因为这是非监督分类,不需要指定最终分出的类个数。在绘制中选择绘制“树状图”。单击确定,得到以下结果。
表3-1显示了数据的缺失情况:
案例处理汇总a 案例 有效 缺失 总计 N 百分比 N 百分比 N 百分比 30 100.0 0 .0 30 100.0 表1-1 数据汇总
我们的数据经过预处理,所以缺失值个数为0.
2. 由于相关矩阵过于庞大,无法在文档中贴出,得到的是一个非相似矩阵。表1-2是样品聚类过程。样品21和28在第一步合并为一类,它们之间的非相关系数最小,为0.211。在下一次合并是第十步。在第五步的时候,样品2、27、14组成一类,出现群集,样品个数为3。如上类推,可以解释表格。
聚类表 阶 群集组合 系数 首次出现阶群集 下一阶 群集 1 群集 2 群集 1 群集 2 1 21 28 .211 0 0 10 2 12 24 .465 0 0 6 3 2 27 .491 0 0 5 4 13 20 .585 0 0 9 5 2 14 .645 3 0 6 6 2 12 .678 5 2 7 7 2 7 .702 6 0 8 8 2 25 .773 7 0 9 9 2 13 .916 8 4 11 10 21 29 1.085 1 0 12 11 2 18 1.106 9 0 12 12 2 21 1.115 11 10 13 13 2 17 1.360 12 0 14 14 2 26 1.564 13 0 15 15 2 22 1.627 14 0 16 16 2 5 1.649 15 0 17 17 2 8 1.877 16 0 18 18 2 16 3.027 17 0 19 19 2 30 3.543 18 0 20 20 2 11 4.930 19 0 21 21 2 4 5.024 20 0 22 22 2 10 6.445 21 0 24 23 1 9 8.262 0 0 26 24 2 15 10.093 22 0 25 25 2 23 10.096 24 0 26 26 1 2 10.189 23 25 27 27 1 6 11.387 26 0 28 28 1 3 13.153 27 0 29 29 1 19 32.367 28 0 0 表1-2 聚类过程
我们可以通过更加形象直观的树状图来观察整个聚类过程和聚类效果。如图1-2所示,最短距离法组内距离小,但组间距离也较小。分类特征不够明显,无法凸显各个省份的能源消耗的特点。但是我们可以看到广东省能源消耗组成和其他省份特别不同,在其他方法中也显现出来。
图1-2 最短距离法聚类图
1.1.2 组间联接聚类
组间联接聚类法定义为两类之间的平均平方距离,即。类CK和CL 合并为下一步的CM 则CM 与CJ距离的递推公式为:。
我们依然贴出组间联接法的聚类表和树状图。
聚类表如表1-3所示,相关解释类似于表1-1所述。
聚类表 阶 群集组合 系数 首次出现阶群集 下一阶 群集 1 群集 2 群集 1 群集 2 1 21 28 .211 0 0 10 2 12 24 .465 0 0 5 3 2 27 .491 0 0 6 4 13 20 .585 0 0
文档评论(0)