第4章判别分析m概要.ppt

  1. 1、本文档共93页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章判别分析m概要

而两个总体内各个个体判别函数值的方差之和则为: * 运用方差分析的思想,要有好的判别效果,就应该使类间离差平方和最大,而使类内离差平方和最小,因此定义判别效率为: 要使判别效率最大,运用极值原理,求L(a)对a的偏导数,并令其为0,得: * 因为 是一个常数,所以上式可写为: * * * 而判别函数则为: 显然,费歇准则的判别函数并不唯一,如果 是费歇准则的判别函数,则对任何 与任意常数 来说, 也都是它的判别函数。 但费歇判别函数的这种不唯一性并不妨碍它的应用,因为这里仅仅给出了判别函数而没有给定判别规则,即只仅仅是将多维变量化成了一个一维变量。 * 3.判别规则的制定 费歇准则下的判别规则的制定,同距离判别规则相同,令两个总体均值向量的均值为: 则该点的判别值就是判别函数的临界值 由此可得判别规则为: * * 另一种方法是将它们看成等协差阵,将样品混合起来估计,有: 由此则得样本判别函数为: 去掉常数项(n1+n2-2),得: * * 例:某种产品的生产厂商有很多个,有些厂商的产品在市场上比较受欢迎,而有些厂商的产品在市场上不大受欢迎,批发商店现有12家厂商的产品,其中7家是受欢迎的,5家属于不太受欢迎的。该商店对这12家厂商的产品就其式样、包装和耐久性进行了评估,评分采用10分制,评估结果如下表所示。 试用费歇判别准则建立判别函数和判别规则。现有一新厂商推销其产品,产品特性评分为式样6分,包装4分,耐久性5分,问该厂商的产品是否受消费者欢迎? * 某种产品各品牌的各项评分 畅销的产品 滞销的产品 厂家 产品特性 厂家 产品特性 式样x1 包装x2 耐久性x3 式样x1 包装x2 耐久性x3 1 2 3 4 5 6 7 9 7 8 8 9 8 7 8 6 7 5 9 9 5 7 6 8 5 3 7 6 1 2 3 4 5 4 3 6 2 1 4 6 3 4 2 4 6 3 5 2 合计 56 49 42 合计 16 19 20 * 1.可计算得到两组产品的均值向量分别为: * 2.两组产品的离差矩阵即中心化变换后的数据矩阵为: * 3.两类的样本离差阵分别为: * 4.求解S及其逆矩阵 * 5.判别系数向量为: * 6.判别函数为: 7.两组均值向量为: * 8.判别函数的阈值为: 9.新产品的判别值为: 所以新产品将会畅销 * 二、多类费歇判别 * 类似于两类的情形,因为线性判别函数计算简便,所以多类费歇判别的判别函数也可设定为线性函数,即令判别函数的形式为: 由于实践中各类的总体均值向量和协方差阵一般都是未知的,所以为了简化,这里只讨论根据各类的样本资料进行判别的问题。 * * * 则定义判别效率为: 类似于两类费歇判别的思想,多类判别也应使上述判别效率达到最大。为此求L(a)对a的偏导数,并令其为0,得到: 由此可得: * * 多类费歇判别的判别规则可根据距离判别的思想给出。对于给定的一个样品,该样品的判别函数值离哪一个总体的距离近,就将该样品判归哪一类。因此,就有下列判别规则: * 三、费歇判别与距离判别和贝叶斯判别之间的比较 1.费歇准则和距离判别对判别变量的分布类型并无要求,二者只要求有各类总体的二阶矩存在;而贝叶斯判别则必须要知道判别变量的分布类型。因此,费歇判别和距离判别相对于贝叶斯判别而言,比较简单。 2.当k=2时,如果∑1=∑2=∑,则费歇判别与距离判别是等价的;当判别变量服从正态分布时,二者与贝叶斯判别也是等价的。 而当∑1≠∑2时,费歇判别用∑1+∑2作为共同的协差阵,这与距离判别和贝叶斯判别是不同的。 * 第五节 逐步判别 一、什么是逐步判别法 前面介绍的判别方法都是用已给定的全部变量x1,x2,???,xp来建立判别式的,但这些变量在判别式中所起的作用,一般来说是不同的,有些可能起重要作用,有些可能作用低微,如果将判别能力低微的变量保留在判别式中,不仅会增加计算量,而且会产生干扰影响效果。如果将其中的重要变量忽略了,那么做出的判别效果也一定不好。 这样,就需要我们筛选出具有显著判别能力的变量来建立判别式。凡具有筛选变量能力的判别方法都称为逐步判别法。 * 逐步判别法有许多不同的原则,从而产生各种方法。 目前使用最多的逐步判别法筛选变量的过程类似于逐步回归,变量的选取是逐步渐进的,每步选一个变量。 * 二、逐步判别法的基本思想 逐步判别法采用“有进有出”的算法,即逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,如果其判别能力随新引入变量而变为不显著了(例如其作用被后引入的几个变量的组合所代替),应及时从判别式中把它剔除去,直到判别式中没有不重要的变

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档