- 1、本文档共102页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
spss使用教程聚类分析与判别分析(新)
; 本章介绍统计学中经常使用的分类统计分析方法——聚类分析与判别分析。主要内容有层次聚类分析、快速聚类分析和判别分析。其中层次聚类分析根据聚类的对象不同分成Q型聚类和R型聚类。;1.聚类分析与判别分析的基本概念; 聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。因此我们说聚类分析是一种探索性的分析方法。; 对个案的聚类分析类似于判别分析,都是将一些观察个案进行分类。聚类分析时,个案所属的群组特点还未知。也就是说,在聚类分析之前,研究者还不知道独立观察组可以分成多少个类,类的特点也无所得知。; 聚类分析的方法,主要有两种,一种是“快速聚类分析方法”(K-Means Cluster Analysis),另一种是“层次聚类分析方法”(Hierarchical Cluster Analysis)。如果观察值的个数多或文件非常庞大(通常观察值在200个以上),则宜采用快速聚类分析方法。因为观察值数目巨大,层次聚类分析的两种判别图形会过于分散,不易解释。; 判别分析是一种有效的对个案进行分类分析的方法。和聚类分析不同的是,判别分析时,组别的特征已知。如银行为了对贷款进行管理,需要预测哪些类型的客户可能不会按时归还贷款。已知过去几年中,900个客户的贷款归还信誉度,据此可以将客户分成两组:可靠客户和不可靠客户。 ; 再通过收集客户的一些资料,如年龄、工资收入、教育程度、存款等,将这些资料作为自变量。通过判别分析,建立判别函数。那么,如果有150个新的客户提交贷款请求,就可以利用创建好的判别函数,对新的客户进行分析,从而判断新的客户是属于可靠客户类,还是不可靠客户类。;2 层次聚类分析中的Q型聚类; 层次聚类分析有两种形式,一种是对样本(个案)进行分类,称为Q型聚类,它使具有共同特点的样本聚齐在一起,以便对不同类的样本进行分析;另一种是对研究对象的观察变量进行分类,称为R型聚类。它使具有共同特征的变量聚在一起,以便从不同类中分别选出具有代表性的变量作分析,从而减少分析变量的个数。 ; 定义:层次聚类分析中的Q型聚类,它使具有共同特点的样本聚齐在一起,以便对不同类的样本进行分析。; 样本若有k个变量,则可以将样本看成是一个k维的空间的一个点,样本和样本之间的距离就是k维空间点和点之间的距离,这反映了样本之间的亲疏程度。聚类时,距离相近的样本属于一个类,距离远的样本属于不同类。; (1)欧氏距离(Euclidean Distance)
两个样本之间的欧氏距离是样本各个变量值之差的平方和的平方根,计算公式为; (2)欧氏距离平方(Squared Euclidean Distance)
两个样本之间的欧氏距离平方是各样本每个变量值之差的平方和,计算公式为; (3)Chebychev距离
两个样本之间的Chebychev距离是各样本所有变量值之差绝对值中的最大值,计算公式为; (4)Block距离
两个样本之间的Block距离是各样本所有变量值之差绝对值的总和,计算公式为; (5)Minkowski距离
两个样本之间的Minkowski距离是各样本所有变量值之差绝对值的p次方的总和,再求p次方根。计算公式为; (6)Customized距离(用户自定义距离)
两个样本之间的Customized距离是各样本所有变量值之差绝对值的p次方的总和,再求q次方根。计算公式为; 连续变量亲疏程度的度量,除了上面的各种距离外,还可以计算其他统计指标。如Pearson相关系数、Sosine相似度等。;3.顺序或名义变量的样本亲疏程度测量方法;4.样本数据与小类、小类与小类之间的亲疏程度测量方法; (2)最长距离法(Furthest Neighbor)
以当前某个样本与已经形成小类中的各样本距离的最大值作为当前样本与该小类之间的距离。; (4)类内平均链锁法(Within-groups Linkage)
与小类间平均链锁法类似,这里的平均距离是对所有样本对的距离求平均值,包括小类之间的样本对、小类内的样本对。; (5)重心法(Centroid Clustering)
将两小类间的距离定义成两小类重心间的距离。每一小类的重心就是该类中所有样本在各个变量上的均值代表点。;? 研究问题
对一个班同学的数学水平进行聚类。聚类的依据是第一次数学考试的成绩和入学考试的成绩。数据如表1所示。;表1 学生的数学成绩;?
您可能关注的文档
- K6R5伺服升降机接线方式以及控制原理.ppt
- MEMS可靠性.pptx
- Mapgis制图操作与使用技巧.ppt
- LCP并发症.ppt
- No4硬件故障诊断.ppt
- LCP临床应用.ppt
- PhotoshopCS2图像处理实用教程CH02.ppt
- Photoshop70的提高知识.ppt
- Photoshop图像处理共109页.ppt
- PhotoshopCS2图像处理实用教程CH01.ppt
- 2023-2024学年广东省深圳市龙岗区高二(上)期末物理试卷(含答案).pdf
- 2023-2024学年贵州省贵阳市普通中学高一(下)期末物理试卷(含答案).pdf
- 21.《大自然的声音》课件(共45张PPT).pptx
- 2023年江西省吉安市吉安县小升初数学试卷(含答案).pdf
- 2024-2025学年广东省清远市九校联考高一(上)期中物理试卷(含答案).pdf
- 广东省珠海市六校联考2024-2025学年高二上学期11月期中考试语文试题.pdf
- 2024-2025学年语文六年级上册第4单元-单元素养测试(含答案).pdf
- 2024-2025学年重庆八中高三(上)月考物理试卷(10月份)(含答案).pdf
- 安徽省安庆市潜山市北片学校联考2024-2025学年七年级上学期期中生物学试题(含答案).pdf
- 贵州省部分校2024-2025学年九年级上学期期中联考数学试题(含答案).pdf
文档评论(0)