10月9日多元统计课件聚类分析.ppt

下载文档 降价啦

5
0
约4.93千字
约 72页
2016-12-28 发布于湖北
举报
版权申诉
保障服务

10月9日多元统计课件聚类分析.ppt

1、本文档共72页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

用SAS实现变量聚类分析为研究人脑老化的严重成度，有人测定了不同年龄的60名正常男性10项有关指标，数据如下，各变量的含义如下：AGE为年龄、TJ为图片记忆、SG为数字广度记忆、TS为图形顺序记忆、XX为心算位数、XS为心算时间、CK为规定时间内穿孔数、BJ为步距、JJ为步行时双下肢夹角、BS步速，数据见SAS程序的数据步。试对这些指标作变量聚类分析。 * 用SAS实现变量聚类分析 * * * * * * 专业结论：结合专业知识发现，由第3过程步分类的结果比较合理，即第１类中含BJ（步距）、JJ（步行时双下肢夹角）、BS（步速）三个与走步有关的变量；第２类中含TJ（图片记忆）、XS（心算时间）、TS（图形顺序记忆）三个与记忆、计算有关的指标；第３类中含SG（数字广度记忆）、XX（心算位数）两个与记忆、计算有关的指标；第４类中含AGE（年龄）、CK（穿孔）两个与视力和反应有关的指标。分类的结果将有助于研究者对影响人脑老化本质的认识，为进一步从事这方面的研究提供了一些线索。 * * 应用注意事项聚类分析方法常用于数据的探索性分析，其结果的解释应密切结合专业知识，同时尝试用多种聚类方法分类，才能获得较理想的结论聚类前应对变量作预处理，剔除无效变量(变量值变化很小)、缺失值过多的变量。一般需对变量作标准化变换或极差变换，以消除量纲和变异系数大幅波动的影响 * 较理想的样品分类结果应使类间差异大，类内差异较小。分类后单变量时应用方差分析，多变量时应用多元方差分析检验类间差异有无统计学意义模糊聚类、神经网络聚类等可参阅相关文献 * 例2 设抽了六个样,每个样只测了一个指标,它们是1,2,5,7,9,10,试用最短距离法分类. (1)样品间采用绝对值距离,计算得D(0)见表2 * (2) D(0)中最小的元素是1,对应的距离是D12= D56 , 则将G1和G2并成G7, G5和G6并成G8 (3)计算G7, G8与其他类的距离,利用递推公式算得D(1) * (4) D(1)中最小元素为D34=D48=2,则将G3 , G4, G8并成G9, 然后计算G9与其他类(只剩下G7)的距离,得,最后将G7和G9并为G10,这时所有样品成为一类,过程终止 * S5与S6的距离最近，先将S5与S6聚为一类，记为新的一类G7={S5,S6}，聚类距离为0.311。计算新类与其他类的距离，按公式： Di7=min{Di5,Di6} 例如，G1与G7的距离为D17=min{D15,D16}=min{3.224,3.173}=3.173 * 重复上述步骤，在所有距离中G4与G7距离最近，记为新的一类G8={G4，G7}={S4,S5,S6} * D1 * D2 重复上述步骤，在所有距离中G2与G3距离最近，记为新的一类G9={G2，G3}={S2,S3} * D3 重复上述步骤，在所有距离中G1与G9距离最近，记为新的一类G10={G1，G9}={S1,S2,S3} 最后将G8与G10聚为一类，聚类距离为1.448。 * D4 谱系聚类图如下：横轴是聚类的距离 * * 最长距离法类与类之间的距离用两类之间最远的距离来表示,即最长距离法与最短距离法的并类步骤完全一样,设某一步将类Gp和Gq合并为Gr, 与类Gk的距离为 * * 中间距离法递推公式为可推广为更一般的情形 * * 不同方法的选择不同方法的分类效果是有差异的,可采用以下办法选择: 一种方法是根据分类问题本身的知识来决定取舍另一种方法是将几种方法的共性取出来分好类后,再对有争论的样品分类 * 重心法从物理的观点来看,一个类用它的重心(该类样品的均值)代表比较合理，类与类之间的距离就用重心之间的距离表示设Gp和Gq的重心分别为和，则两类的距离为 * 递推公式为 * A2 ○ B1 ○ B3 ○ A1○ B2 ○ ● ● * 五、动态聚类法用系统聚类法聚类，样品一旦划到某个类以后就不变了，这要求分类的方法比较准确系统聚类要存入距离阵，占用内存较多，计算速度缓慢 * 动态聚类法原理先给一个粗糙的初始分类，然后用某种原则进行修改，直至分类比较合理为止为了得到初始分类，有时设法选择一些凝聚点，让样品按某种原则向凝聚点凝聚 * 动态聚类法流程图选凝聚点初始分类最终分类修改分类分类是否合理 * 凝聚点的选择凭经验选择将数据人为地分成k类，计算每一类的均值，将这些均值作为凝聚点密度法 * k-means法的基本步骤指定拟分类数目k，随机选择k个样品作为凝聚点各自成一类，各类的重心分别是个样品观测值构成的向量将剩余n－k个样品逐个进入，每进入一个样品将它归入最近的凝聚点的那一类，随即计算该类重心，以重心代替原凝聚点

您可能关注的文档

文档评论（0）

5500046 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

10月9日多元统计课件聚类分析.ppt