- 1、本文档共49页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
spss判别分析
第十三讲 判别分析 第一部分 上一讲回顾 第二部分 判别分析概念 第三部分 判别分析的SPSS过程 1、聚类分析的概念 2、距离概念 3、聚类分析SPSS过程 4、冰挂图和树形图 1、聚类分析概念 聚类分析是根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 根据分类对象的不同, ①、分为样品(观测量)聚类 ②、变量聚类两种 2、距离概念(样本点间距离的计算方法) 相似性的度量(变量相似系数的计算方法) 类间距离的计算方法 第三部分 聚类分析的SPSS过程 在Analyze?Classify下: 1、快速聚类(K-Means Cluster): 观测量快速聚类分析过程。 2、分层聚类(Hierarchical Cluster):分层聚类(进行观测量聚类和变量聚类的过程。 快速聚类过程(Quick Cluster) 使用 k 均值分类法对观测量进行聚类。可使用系统的默认选项或自己设置选项,如分为几类、指定初始类中心、是否将聚类结果或中间数据数据存入数据文件等。 Analyze?Classify?K-Means Cluster 分层聚类(Hierarchical Cluster)过程 分层聚类又称系统聚类: 是指事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类 分层聚类方法: 分解法:先视为一大类,再分成几类 凝聚法:先视每个为一类,再合并为几大类 冰挂图 如何观察冰挂图: 从最后一行开始,当聚成4类时,3、4个案聚成一类,其他个案自成一类; 当聚成3类时,3、4个案,1、2个案聚成一类,个案五自成一类; 当聚成2类时,1、2个案聚成一类,其余个案聚成一类 树形图 树形图以水平放置的树形结构呈现了聚类分析中每一次类合并的情况。SPSS自动将各类间的距离映射到0~25之间。如何看?那个更直观? 小结 除分层聚类法和K-均值聚类法外,1996年还提出一种新的聚类方法,即两步聚类法(TwoStep Cluster) 无论那种分类方法,最终要分成多少类别,并不是完全由方法本身来决定,研究者应结合具体问题而定。 聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法,也会的得到不同的分类结果。分类的结果没有对错之分,只是分类标准不同而已?。 使用聚类方法时,首先要明确分类的目的,再考虑选择哪些变量(或数据)参与分类,最后才需要考虑方法的选择。至于分类结果是否合理,该如何解释,更多取决于研究者对所研究问题的了解程度、相关的背景知识和经验。 从数据要求上看 1、参与分类的变量首先应符合要求 2、各变量的取值不应有数量级上的过大差异,否则会对分类结果产生较大影响。这时需要对变量进行标准化处理(SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理,而K-均值聚类法则需要单独做标准化处理,而后再进行聚类) 3、各变量间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析,在测度距离时,就加大了它们的贡献,而其他变量则相对被削弱 从聚类方法的选择上 1、看数据的类型,如果参与分类的变量是连续变量,层次聚类法、K-均值聚类法、以及两步聚类法都是适用的。如果变量中包括离散变量(计数变量),则需要将先对离散变量进行连续化处理。当数据量较少时(比如小于100),两种方法都可以选用,当数据量较多时(比如大于1000),则应该考虑选用K-均值聚类法 2、要看分类的对象。如果是对样本分类,两种方法都可用;如果是对变量分类则应选择层次聚类法(至少SPSS的程序是这样) 注意对分类结果的检验 分类结果是否合理取决于它是否“有用”,但分类结果是否可靠和稳定,则需要反复聚类和比较。 一般来说,在所分的类别中,各类所包含的对象(样本或变量)的数量应该大致相当。至少这从表面上看更漂亮一些。 问题 1、什么时候用快速聚类? 2、什么时候用分层聚类? 第二部分 判别分析概念 有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。 这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。 判别分析(discriminant analysis) 这就是本次课要讲的是判别分析。判别分析和前面的聚类分析有什么不同呢? 主要不同点就是:在聚类分
文档评论(0)