[理学]聚类分析和判别分析.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[理学]聚类分析和判别分析

统计分析与SPSS实用教程 聚类分析 快速聚类 系统聚类 判别分析 聚类分析 聚类分析也称群分析,它是根据事物本身的特性对被研究对象进行分类,使同一类中个体有较大的相似性,不同类中的个体有较大的差异性。在分类过程中,人们不必事前给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。 聚类分析主要解决的问题:所研究的对象事前不知道应该分为几类,更不知道分类情况,需要建立一种分类方法来确定合理的分类数目,并按相似程度,相近程度对所有对象进行具体分类。 基本思路:在样本之间定义距离,在指标之间定义相关系数,按距离的远近,相似系数的大小对样本或指标进行归类。 SPSS实现:“分析/分类”命令。 常用的有快速( K-均值)聚类分析、系统聚类分析。 1、快速聚类 快速聚类也称为逐步聚类,它先对数据进行初始分类,然后系统采用标准迭代算法进行运算,逐步调整,把所有的个案归并在不同的类中,得到最终分类。它适用于大容量样本的情形。 快速聚类的分析计算过程如下: (1)用户确定聚类的类别数,如k类。 (2)SPSS系统确定k个类的初始中心点。SPSS会根据样本数据的实际情况,选择k个有代表性的样本数据作为初始中心。初始类中心也可以由用户自行指定,需要指定k组样本数据作为初始类中心点。 (3)计算所有样本数据点到k个类中心点的欧式距离,SPSS按照距K个类中心点的聚类最短原则,把所有样本分派到中心点所在的类中,形成一个新的k类,完成一次迭代过程。 (4)SPSS重新确定k个类的中心点。SPSS计算每个类中各个变量的变量值均值,并以均值点作为新的类中心点。 (5)重复上面(3)(4)两步计算过程,直到达到指定的迭代次数或者终止迭代的判别要求为止。 例1:利用快速聚类分析对20家上市公司进行分类。 SPSS实现 (1)打开文件:上市公司.sav。 (2)点击“分析/分类/K-均值聚类”。 (3)选择变量、 个案标记依据、 分类类别数。 (如图对话框中2表示把所有个案分为两类) 下面对“迭代”“保存”“选项”说明 (4)“迭代”按钮显示迭代的最大次数,系统默认值为10. “保存”按钮打开后, “聚类成员”表示用于储存聚类产生的每个个案所隶属的类别; “与聚类中心的距离”表示要求输出样本的分类信息以及它们到本类中心的聚类。 “选项”按钮下的统计量选项分别表示输出初始分类的凝聚点;针对最终分类中的每个变量作为单因素方差分析,并输出方差分析表;要求输出样本的分类信息以及它们到本类中心的距离。 (5)点击“确定”。 结果分析: 2、系统聚类分析 系统聚类分析师根据个案或者变量之间的亲疏程度,将最相似的对象结合在一起,以逐次聚合的方式把所有个案分类,逐步合并直到最后合并成为一类。 根据聚类过程的不同可分为凝聚法和分解法。凝聚法是指一开始把每个个案都视为不同的类,然后通过距离的比较逐步合并直到把参与聚类的个案合并成事先规定的类别数为止。分解法是一开始把所有个案都视为同一个类,然后通过距离的比较逐层分解,直到把参与聚类的个案区分成事先规定的类别数为止。无论哪种聚类方法其原则都是相近的聚为一类,实际上上述两种方法是方向相反的两种聚类过程。 判别分析 判别分析也是一种常用比较常用的分类分析方法,它先根据已知类别的事物的性质(自变量),建立函数式(自变量的线性组合,即判别函数),然后对未知类别的新事物进行判断以将之归入已知的类别中。 判别分析的假设为 (1)预测变量服从正态分布; (2)预测变量之间没有显著的相关; (3)预测变量的平均值和方差不相关; (4)预测变量应是连续变量,因变量(类别或组别)是间断变量; (5)两个预测变量之间的相关性在不同类中是一样的。 在判别分析的各个阶段应把握以下原则: (1)事前组别(类)的分类标准(作出判别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析的效果; (2)所分析的自变量应是因变量的重要影响因素,应该挑选既有重要特性又有区别能力的变量,达到以最少变量而有高辨别能力的目标; (3)初始分析的数目不能太少。 判别分析的分类: 按类别的组数来分有两组判别分析和多组判别分析; 按区分不同总体所用的数学模型来分有线性判别和非线性判别; 按判别对所处理的变量方法不同有逐步判别、序贯判别等。 判别分析可以从不同的角度提出问题,因此有不同的判别准则,如费舍尔

文档评论(0)

skvdnd51 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档