多元统计聚类分析方法实例.docVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多元统计聚类分析方法实例

PAGE PAGE 1 三种系统聚类方法对24款8600GT进行分类的应用 0082807段超波 0082796童善杰 (江西财经大学信息管理学院08管理科学1班,江西,南昌220032) 摘要:我们知道在SAS系统中提供了很多种系统聚类过程中确定类别与类别之间距离的方法,像类平均法(AVE)、最短距离法(SIN)、离差平方和法(WARD)、最长距离法(COM)、重心法(CEN)等,从而影响最终的分类结果。到底哪一种方法更合理更符合实际呢?通过用类平均法(AVE)、最短距离法(SIN)和离差平方和法(WARD)3种方法对24款8600GT进行分类,来对比一下这三种方法的分类效果。 关键词:聚类分析 类平均法 最短距离法 离差平方和法 Three Kinds of Clustering Method in 8600GT Classification of 24 of the Application Abstract: we know in the SAS system provides a variety of system clustering process to determine the distance between classes and category of methods, like Average linkage (AVE), Single linkage (SIN), WARD (WARD), Complete method (COM), Centroid method (CEN) etc, thus influence the final classification results. Which method is more reasonable more accord with actual? Through using class average method (AVE), Single linkage (SIN) and WARD (WARD), three methods for the 24 8600GT classification, to compare these three methods of classification effect. Keywords: Cluster Analysis Average linkage WARD Single linkage. 在现实生活中,需要对复杂的对象依据一定的标准进行分类,通常情况下,人们根据事物现象的一个指标或者某一方面就可以进行分类活动,而实际上,需考虑的事物或对象不只包含单一指标,因此,很可能还需通过许多侧面或者指标来进行分类。一般情况下,人们往往可根据事物之间的远近距离来判定类别。个体与个体之间的距离越近,其相似程度可能也越高,属于同类的可能性越大。有了一定的分类规则之后,人们可以根据个体与个体之间的距离长短进行分类,首先把最近的个体分为同类,然后再根据最短距离继续扩大类别所涵盖的范围,知道把所有个体都分为一个大类为止,类似这样的分类过程称为“系统聚类”。案例中将要使用聚类方法均属于此类过程。 1 原理和方法 1.1类平均法(AVE) 类平均法是用两类样品两两之间平方距离的平均值的平均值作为类之间的距离。如和两类,可以计算每类中每对样本点之间的平均距离。 若,则新类与其他任意类之间的距离系数由递推公式决定。 即在并类过程中,以类别样本点之间的平均距离作为依据并类,直到把所有样本归为一类。 1.2最短距离法(Single linkage) 如果和两类合并为新类,在最短距离法中,新类与其他任意类之间的距离系数由下列公式决定: 即如果新类与其他类别之间存在多个距离,则取这些距离中最小者作为两类之间的距离。 1.3离差平方和法(WARD) 离差平方和法的思想来源于方差分析,即如果类分得恰当,同类内样品之间的离差平方和应较小,而类间的离差平方和应当较大。该法要求样品间距离必须采用欧氏距离。 离差平方和法定义类间的平方距离为:。其中,是类和合并成的类的类内离差平方和。 当观测距离时,则新类与其他任意类之间的距离由下列递推公式决定。 当采用离差平方和法进行分类时,先让每个样品自成一类,然后并类。每并一类,离差平方和都要增大,选择使其增加最小的两类合并,直到所有的样品归为一类为止。 这么多种方法都可以对样本数据进行聚类分析,究竟采用哪一种方法最好呢?Demirmen(1972)提出了一定的遵循原则。 任何类必须在邻近的各类中是突出的,即各类重心(常用平均数衡量)之间应该有最大的距离。 在确定的类中,各类所包含的元素都不宜过多。 分类数目应符合实际。 当用许多方法进行分类时,应选出现次数最多的那种分类结果。 1.4实现方法 在SAS系统中,

文档评论(0)

zhengshumian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档