网站大量收购闲置独家精品文档,联系QQ:2885784924

多元统计分析一.ppt

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多 元 统 计 分 析(一) 廖昌隆 125877020@ 简 介 多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和对个指标互相关联的情况下分析它们的统计规律。随着电子计算机的发展和普及 ,多元统计分析在地质 、气象、生物、医学、图像处理、经济分析等许多领域得到了广泛的应用 ,同时也促进了理论的发展。各种统计软件包如SAS,SPSS等,使实际工作者利用多元统计分析方法解决实际问题更简单方便。主要的多元统计分析方法有:判别分析、聚类分析、主成分分析、因子分析等。 判别分析 由 k个不同总体的样本来构造判别函数,利用它来决定新的未知类别的样品属于哪一类,这是判别分析所处理的问题。它在医疗诊断、天气预报、图像识别等方面有广泛的应用。例如,为了判断某人是否有心脏病,从健康的人和有心脏病的人这两个总体中分别抽取样本,对每人各测两个指标X1和X2,点绘如图 我们建立判别函数 :y=aX1+bX2+c.使 y0, 等价于(X1,X2)落在g1,y0等价于(X1,X2)落在g2。由此得判别规则aX1+bX2+c0. 即此人为健康者;若aX1+bX2+c0此人为心脏病者。若aX1+bX2+c=0则为待判。 距离判别 距离有多种定义方法,我们最熟悉的是欧氏距离,即有 为此,我们引入一种由印度著名统计学家马哈拉诺比斯(Mahalanobis, 1936)提出的“马氏距离”的概念。 三、质心法 两类间的距离定义为: 对异常值不敏感,结果更稳定 四、类平均法 两类间的距离定义为: 该法利用了所有样本的信息,被认为是较好的系统聚类法 五、离差平方和法 离差平方和法的思想起源于方差分析。如果类分得比较合理,那么同类样本间的距离(离差平方和)应比较小,而类与类间的距离(离差平方和)应当较大。两类间的距离定义为: 对异常值很敏感;对较大的类倾向产生较大的距离,从而不易合并,较符合实际需要。 动态聚类法 系统聚类法是一种比较成功的聚类法,然而其缺点也很明显:首先,采用系统聚类法聚类,样本一旦划入某个类中,以后就不再变化了,这就要求分类比较准确;其次系统聚类法要存储距离矩阵,当样本较多时,需要占用很大的存储空间,计算速度比较慢。这时,动态聚类法就会显得方便,适用。 动态聚类法适用于大型数据。 K-均值法 具体步骤如下: 1.把元素任意分成K个初始类,并计算各初始类的质心。 2.修改分类,采用逐个修改法。对第i类的元素xi计算与当前K个类的质心的距离,若元素xi距离第j类(i不等于j)的质心最近,则将xi归于第j类,并重新计算第i,j两类的质心。 3.重复第二步,直到各类中元素无进出为止。 例:设对于4个元素a,b,c,d观测两个指标X1,X2,得到观测数据如下表: 解:欲将这些元素分为两类,采用2-均值法。 第一步,任意分为2类,例如{a,b}与{c,d},计算各类质心坐标 ,列于下表 第二步,计算每个元素到质心的距离 由于b更靠近{c,d},将b划入{c,d},得到一个新类{b,c,d}重新计算类质心坐标: 再分别计算各个元素到2个新类的质心的距离平方 由于每个元素都分到了它与类质心最近的类中,因而聚类过程结束,最终分类为{a}与{b,c,d}。 * * 此例的判别函数是线性函数,它简单方便,在实际问题中经常使用。但有时也用非线性判别函数,特别是二次判别函数。建立判别函数和判别规则有不少准则和方法,常用的有距离判别、贝叶斯判别、费希尔判别等。 1、两个总体的距离判别问题 ●问题:设有协方差矩阵∑相等的两个总体G1和G2,其均值 分别是?1和? 2,对于一个新的样品X,要判断它来自哪个总体。 ●一般的想法是计算新样品X到两个总体的马氏距离D2(X,G1)和D2(X,G2),并按照如下的判别规则进行判断 ●这个判别规则的等价描述为:求新样品X到G1的距离与到G2 的距离之差,如果其值为正,X属于G2;否则X属于G1。 ●我们考虑 2、多个总体的距离判别问题 Bayes判别 从上节看距离判别法虽然简单,便于使用。但是该方法也有它明显的不足之处。 第一,判别方法与总体各自出现的概率的大小无关; 第二,判别方法与错判之后所造成的损失无关。 Bayes判别法就是为了解决这些问题而提出的一种判别方法。 Bayes判别法是根据先验信息使得误判所造成的平均损失达最小的判别法。 设G1,G2为两个m维总体,其概率密度分别为 ,且已知G1,G2出现的概率分别为

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档