第5章聚类分析实验讲义.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章聚类分析实验讲义

实验项目五 聚类分析 实验内容、目标及要求 实验内容 聚类分析是一种研究事物分类的方法,其目的是把分类对象按一定的规则分为若干类,这些类不是事先给定的,而是根据数据的特征确定的。通俗的讲,聚类分析法是用来对资料做简化的工作及分类,也就是把相似的个体(观察量)归于一群。car_sales.sav(SPSS/tutorial/sample)中选择数据进行分析。 (二)实验目标 SPSS软件中系统聚类法和K均值聚类的计算机操作及结果分析。 (三)实验要求 要求学生能熟练应用计算机软件进行聚类分析,并对结果进行分析,培养实际应用能力。 二、实验准备 (一)运行环境说明 电脑操作系统为Windows XP,所需软件为SPSS 16.0。 (二)基础数据设置说明 将数据正确导入SPSS,设置相应的变量值。 三、实验基本操作流程及说明 (一)系统界面及说明 同实验一。 (二)操作步骤 A.系统聚类法操作步骤及结果分析 1. 选择菜单项Analyze→Classify→Hierachical Cluster,打开Hierachical Cluster Analysis对话框,如图 5-5。将原始变量Price in thousands到Fuel efficiency移入Variables列表框框中,将标志变量Model移入Label Case by列表框框中。 图5-4 Hierachical Cluster Analysis对话框 在Cluster栏中选择Cases单选按钮,对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。 2. 点击Plots按钮,打开Plots子对话框,如图5-5。设置结果输出窗口中给出的聚类分析统计图。Dendrogram为聚类树形图,Icicle为冰柱图。 图5-5 Plots子对话框 这里我们选中Dendrogram复选框和Icicle栏中的None单选按钮,只输出比较常用的聚类树形图,而不给出冰柱图。 3. 点击Method按钮,打开Method子对话框,如图5-6,设置系统聚类的方法选项。 图5-6 Method子对话框 Cluster Method下拉列表用于指定类与类之间距离的测度方法,具体选项的含义参见教材。 Measure栏用于设置不同数据类型下的个体与个体之间距离的测度方法,其中,Interval中的方法适用于连续型变量,Counts中的方法适用于计数变量,Binary中的方法适用于二值变量。 Transform Values选项栏用于当原始数据不是同一数量级别的时候选择对原始数据进行标准化的方法。单选按钮By variable表示针对变量进行标准化,适用于Q型聚类;By case表示针对观测进行标准化,适用于R型聚类。 这里我们选择最为常用的Z分数标准化法对原始数据进行标准化,其余选项均保持默认。 4. 点击Save按钮,打开 Save New Variables子对话框,指定保存在数据文件中的用于表明聚类结果的新变量。 None表示不保存任何新变量;Single solution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;Range of solutions表示生成多个分类变量。这里我们选择Range of solutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2类、3类和4类时的聚类结果。 5. 在主对话框中点击OK按钮,运行系统聚类过程,结果如表5-1和图5-7所示。 表5-1 聚类过程表 图5-7 树状图 B.K-meanstelco_extra.sav 1. 选择菜单项Analyze→Classify→K-Means Cluster,打开K-Means Cluster Analysis对话框,如图 5-8。将原始变量x1—x3移入Variables列表框框中,将标志变量Region移入Label Case by列表框框中。 图5-8 K-Means Cluster Analysis对话框 在Method选项栏中选择Iterate classify单选项,使用K-means算法不断计算新的类中心,并替换旧的类中心;若选择Classify only,则根据初始类中心进行聚类,在聚类过程中不改变类中心。 在Number of Cluster后面的输入框中输入想要把样品聚成的类数,这里我们输入3,即将电信客户分为3类。 至于Centers按钮,则用于设置迭代的初始类中心。如果不用手工设置,则系统会自动设置初始类中心,这里我们不作设置。 2. 点击Iterate按钮,打开Iterate子对话框,如图

文档评论(0)

zhuliyan1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档