第五单元 聚类分析.pptVIP

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五单元 聚类分析

第五章 聚类分析 第一节 什么是聚类分析 俗话说“物以类聚,人以群分”,在自然科学和社会科学等领域中,存在着大量的分类问题。比如,为了对我国独立核算工业企业经济效益进行分析,较好的做法是选取能反映经济效益的代表性指标,如:百元固定资产实现利税、资金利税率、全员劳动生产率等,根据这些指标进行分类,根据分类结果对企业的经济效益进行综合评价,就易于得出科学的分析结论。 聚类分析就是建立一种分类方法,将一批样品或变量(指标)按照它们在性质上的相似、疏远程度进行科学的分类。通常描述样品或变量间相似、疏远程度有两种思路;一是把每个样品看成是P维(变量的个数为p)空间的一个点,在p维坐标系中,确定点与点之间的某种距离;另一种是用某种相似系数来描述变量之间的相似或疏远程度。 聚类分析有: 1:Q型聚类分析和R型聚类分析。Q型聚类是对样品进行聚类,R型聚类是对变量进行聚类。 2:静态聚类和动态聚类法。 第二节 距离和相似系数 距离和相似系数有各种各样的定义。这些定义与变量的类型有着非常密切的关系。 一、变量的 类型 1、间隔尺度:变量是用连续的量来表示的,如长度、重量、速度,温度等。 2、顺序尺度:变量度量时不用明确的数值表示,而是用等级来表示,等级之间有次序关系;如产品分为一、二、三等。 3、名义尺度:变量度量时既没有数量表示,也没有次序关系,如物体有红、黄、蓝三种颜色;医学化验中的阴性和阳性,性别的男性和女性等。 下面给出具有间隔尺度变量的距离和相似系数的定义。 第三节 无量纲化方法 各样品或指标的观测值因量纲不同,或量纲虽相同,但数量级不同,直接用原始数据进行一系列计算就会突出那些绝对值大的变量的作用而削弱那些绝对值小的变量的作用,因此,在计算之前,应对原始数据进行无量纲处理。当对样品进行分析时,应按列进行无量纲处理. 1、标准化变换(标准差标准化) 3、功效系数法 功效系数法是利用特定的方法将每个指标的原始数据转化为用百分制表示的数值。这种方法不仅可以对每一指标进行直接比较,还可以解决不同性质的指标综合问题。 其步骤为: (1)对每一个指标确定一个满意值和不允许值 (2)以满意值和不允许值的差额作为分母计算功效系数 其计算公式; 功效系数表 第四节 系统聚类法 一、Q型系统聚类法的基本思想和聚类步骤 其基本思想是: 开始时先将n个样品点各自作为一类,计算它们之间的距离,然后将距离最近的两类合并为一个新类,计算新类与其它类的距离,重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为所需类数为止,所以系统聚类法也称逐步聚类法。其步骤如下: 步骤一:聚类前先对数据进行变换处理,消除量纲对数据的影响; 步骤二:将各样品点自成一类(n个样品共有n类),计算各样品点之间的距离,并将最近的两个样品点并成一个新类; 步骤三:计算新类与其它类的距离,将距离最近的两类合并,重复上述作法,直至所有样品点归为所需类数为止; 步骤四:绘出系统聚类图。 Q型系统聚类方法取决于类与类之间距离的选择,由于类与类之间距离的定义有多种,不同的选择就会产生不同的聚类方法。 二、聚类方法 (一)最短距离法 第四节 用K-M过程进行大样本数据的聚类分析 前面介绍了基本的聚类分析,并叙述了聚类形成的一般方法。但在大样本的情况下(比如,数据文件有200个以上的个案,计算时就会产生许多中间结果,就需要很多的缓冲区和很大内存容量来容纳,这时可采用K-M聚类分析方法来进行快速聚类。 快速聚类分析是由用户指定类别数的大样本资料的逐步聚类分析。它先对数据进行初始分类,然后逐步调整,得到最终分类。 和层次聚类分析一样,K-M聚类分析也以距离为样本间亲疏程度的标志。但两者的不同在于:分层聚类分析法,根据不同的聚类数目可生成一系列连续的聚类解。而K-M聚类分析只生成固定类数的聚类解,类数需要用户事先指定,且无图形输出。 其计算过程如下: 1、首先需要用户指定聚类成多少类k 2、SPSS确定k个类的初始类中心点。SPSS会根据样本数据的实际情况,选择k个有代表性的样本数据作为初始中心类。初始类也可以由用户自行指定,需要指定k组样本数据作为初始类中心点。 3、计算所有样本数据点到k个类中心点的欧氏距离,SPSS按照距k个类中心点距离最短的原则,把所有样本点分配到各中心点所在的类,形成一个新的k类,完成一次迭代。 K-M聚类例1.sav 从单因素方差分析结果看,各类之间的差异不明显,则需要尝试其他分类的数目.这说明,K-M聚类是一种尝试性的聚类,有时候需要反复进行,来最终确定一个合理的聚类数目. 以类平均法为基准,其它方法都与它作比较,可以得出一些结论

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档