判别分析的基本原理..doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
判别分析的基本原理.

判别分析的基本原理和模型 一、判别分析概述 (一)什么是判别分析 判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。 判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。常用的有,距离准则、Fisher准则、贝叶斯准则等。判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。 (二)判别分析的种类 按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。 二、判别分析方法 (一)距离判别法 1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第类的重心距离最近,就认为它来自第类。因此,距离判别法又称为最邻近方法(nearest neighbor method)。距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。 2.两组距离判别 两组距离判别的基本原理。设有两组总体,相应抽出样品个数为,,每个样品观测个指标得观测数据如下, 总体的样本数据为: 该总体的样本指标平均值为: 总体的样本数据为: 该总体的样本指标平均值为: 现任取一个新样品,实测指标数值为=(),要求判断属于哪一类? 首先计算样品与、两类的距离,分别记为、,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。判别准则写为: ,如果, ,如果, 待判,如果。 其中,距离的定义很多,根据不同情况区别选用。如果样品的各个变量之间互不相关或相关很小时,可选用欧氏距离。采用欧氏距离时, = = 然后比较和的大小,按照距离最近准则判别归类。 但实际应用中,考虑到判别分析常涉及到多个变量,且变量之间可能相关,故多用马氏距离。马氏距离公式为: 其中、、、分别是、的均值和协方差阵。 这时的判别准则分两种情况给出: (1)当==时 = = 令,同时记 则 所以判别准则写成: ,如果, ,如果, 待判,如果。 该规则取决于的值,因此被称为判别函数,也可以写成: ,其中。被称为线性判别函数。 作为特例,当时,两个总体的分布分别是和,判别函数为 或 (使用样本资料代替总体参数时) 不妨设,这时的符号取决于或。时,判;时,判。 两组距离判别法,简单容易理解,判别准则也是合理的,但是有时也会出现错判。如下图6.1,如果来自,但却落入,被错判为组,错判的概率为图中阴影的面积,记为,类似有,显然==。 图6.1 当两总体靠的比较近时,即两总体的均值差异较小的时候,无论用何种判别方法,错判的概率都比较大,这时的判别分析也是没有意义的。因此只有当两总体的均值有显著差异时,进行判别分析才有意义,为此,要对两总体的均值差异性进行检验,对此在下文中叙述。 (2)当时 按照距离最近准则,类似地有: ,如果, ,如果, 待判,如果。 仍然用 作为判别函数,此时的判别函数是的二次函数。 (3)关于两组判别分析的检验 由于判别分析是假设两组样品是取自不同总体,如果两个总体的均值向量在统计上差异不显著,则进行判别分析意义不大。所以,两组判别分析的检验,实际就是要经验两个正态总体的均值向量是否相等,为此,检验的统计量为: 其中: 给定检验水平,查分布表使,可得出,再由样本值计算,若,则否定原假设,认为两个总体的均值向量在统计上差异显著,否则两个总体的均值向量在统计上差异不显著。 3、多个总体的距离判别法 类似两个总体的讨论推广到多个总体。 设有个总体,相应抽出样品个数为,每个样品观测个指标得观测数据如下, 总体的样本数据为: 该总体的样本指标平均值为: 总体的样本数据为: 该总体的样本指标平均值为: 它们的样本均值和协方差阵分别为: 、。一般的,记总体的样本指标平均值为:(),。 (1)当时 此时, 判别函数为 , 相应的判别准则为: , 当时,对于一切 待判, 若有一个 (2)当不相等时 此时判别函数为

文档评论(0)

wuyuetian + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档