10月9日多元统计课件 聚类分析.ppt

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
用SAS实现变量聚类分析 为研究人脑老化的严重成度,有人测定了不同年龄的60名正常男性10项有关指标,数据如下,各变量的含义如下:AGE为年龄、TJ为图片记忆、SG为数字广度记忆、TS为图形顺序记忆、XX为心算位数、XS为心算时间、CK为规定时间内穿孔数、BJ为步距、JJ为步行时双下肢夹角、BS步速,数据见SAS程序的数据步。试对这些指标作变量聚类分析。 * 用SAS实现变量聚类分析 * * * * * * 专业结论:结合专业知识发现,由第3过程步分类的结果比较合理,即第1类中含BJ(步距)、JJ(步行时双下肢夹角)、BS(步速)三个与走步有关的变量;第2类中含TJ(图片记忆)、XS(心算时间)、TS(图形顺序记忆)三个与记忆、计算有关的指标;第3类中含SG(数字广度记忆)、XX(心算位数)两个与记忆、计算有关的指标;第4类中含AGE(年龄)、CK(穿孔)两个与视力和反应有关的指标。分类的结果将有助于研究者对影响人脑老化本质的认识,为进一步从事这方面的研究提供了一些线索。 * * 应用注意事项 聚类分析方法常用于数据的探索性分析,其结果的解释应密切结合专业知识,同时尝试用多种聚类方法分类,才能获得较理想的结论 聚类前应对变量作预处理,剔除无效变量(变量值变化很小)、缺失值过多的变量。一般需对变量作标准化变换或极差变换,以消除量纲和变异系数大幅波动的影响 * 较理想的样品分类结果应使类间差异大,类内差异较小。分类后单变量时应用方差分析,多变量时应用多元方差分析检验类间差异有无统计学意义 模糊聚类、神经网络聚类等可参阅相关文献 * 例2 设抽了六个样,每个样只测了一个指标,它们 是1,2,5,7,9,10,试用最短距离法分类. (1)样品间采用绝对值距离,计算得D(0)见表2 * (2) D(0)中最小的元素是1,对应的距离是D12= D56 , 则将G1和G2并成G7, G5和G6并成G8 (3)计算G7, G8与其他类的距离,利用递推公式算得D(1) * (4) D(1)中最小元素为D34=D48=2,则将G3 , G4, G8并成G9, 然后计算G9与其他类(只剩 下G7)的距离,得,最后将G7和G9并为G10,这时所 有样品成为一类,过程终止 * S5与S6的距离最近,先将S5与S6聚为一类,记为新的一类G7={S5,S6},聚类距离为0.311。 计算新类与其他类的距离,按公式: Di7=min{Di5,Di6} 例如,G1与G7的距离为D17=min{D15,D16}=min{3.224,3.173}=3.173 * 重复上述步骤,在所有距离中G4与G7距离最近,记为新的一类G8={G4,G7}={S4,S5,S6} * D1 * D2 重复上述步骤,在所有距离中G2与G3距离最近,记为新的一类G9={G2,G3}={S2,S3} * D3 重复上述步骤,在所有距离中G1与G9距离最近,记为新的一类G10={G1,G9}={S1,S2,S3} 最后将G8与G10聚为一类,聚类距离为1.448。 * D4 谱系聚类图如下:横轴是聚类的距离 * * 最长距离法 类与类之间的距离用两类之间最远的距离来表示,即 最长距离法与最短距离法的并类步骤完全一样,设某一步将类Gp和Gq合并为Gr, 与类Gk的距离为 * * 中间距离法 递推公式为 可推广为更一般的情形 * * 不同方法的选择 不同方法的分类效果是有差异的,可采用以下办法选择: 一种方法是根据分类问题本身的知识来决定取舍 另一种方法是将几种方法的共性取出来分好类后,再对有争论的样品分类 * 重心法 从物理的观点来看,一个类用它的重心(该类样品的均值)代表比较合理,类与类之间的距离就用重心之间的距离表示 设Gp和Gq的重心分别为 和 ,则两类的距离为 * 递推公式为 * A2 ○ B1 ○ B3 ○ A1○ B2 ○ ● ● * 五、动态聚类法 用系统聚类法聚类,样品一旦划到某个类以后就不变了,这要求分类的方法比较准确 系统聚类要存入距离阵,占用内存较多,计算速度缓慢 * 动态聚类法原理 先给一个粗糙的初始分类,然后用某种原则进行修改,直至分类比较合理为止 为了得到初始分类,有时设法选择一些凝聚点,让样品按某种原则向凝聚点凝聚 * 动态聚类法流程图 选凝聚点 初始分类 最终分类 修 改 分 类 分类 是否 合理 * 凝聚点的选择 凭经验选择 将数据人为地分成k类,计算每一类的均值,将这些均值作为凝聚点 密度法 * k-means法的基本步骤 指定拟分类数目k,随机选择k个样品作为凝聚点各自成一类,各类的重心分别是个样品观测值构成的向量 将剩余n-k个样品逐个进入,每进入一个样品将它归入最近的凝聚点的那一类,随即计算该类重心,以重心代替原凝聚点

文档评论(0)

5500046 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档