网站大量收购独家精品文档,联系QQ:2885784924

第11章 判别分析.ppt

  1. 1、本文档共170页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第11章 判别分析

第十一章 判别分析的基本思想 判别分析是多元统计分析中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法分成若干类的情况下,确定样品所属类别的方法。例如,在医疗诊断中,医生根据体温,脉搏,心率,白血球等多种指标,来判别此人患哪种病。 判别分析的特点 根据已掌握的,历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则,然后,当遇到新样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属类别。 判别分析的分类 按判别准则的不同: 距离判别 贝叶斯判别 费希尔判别 在判别分析中,需要解决的问题 判别准则和判别函数的确立。 判别准则用于衡量样品与各已知组别的接近程度。常用的有距离准则,费希尔准则,贝叶斯准则。 判别函数是基于一定判别准则计算出的用于衡量样品与各已知组别的接近程度的函数式或描述指标。 判别分析法的基本要求: 分组类型在两组以上 第一阶段时每组的元素规模必须在一个以上 解释变量必须是可测量的。 判别分析的假设前提: 第一节 距离判别的最直观的想法是计算样品到第i类总体的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。 马氏距离的定义: 设总体G为m元总体(考察m个指标),均值向量为 ,协方差阵为 ,则样品 例 在企业的考核种,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有: 资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为: (7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类? 当总体的方差未知时,应该用样本的协方差矩阵代替。步骤如下(假如两个总体): (1)分别计算各组的离差矩阵S1和S2; (2)计算 (3)计算类的均值 (4)计算 (5)计算 (6)生成判别函数,将检验样本代入,得分,判类。 第二节 距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数和协方差未知时,就用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。 办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。。 距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。 一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。 判别规则 二、 考虑错判损失的Bayes判别分析 【定义】(平均错判损失) 若总体G1,G2,?,Gk的先验概率为 且相应的密度函数为 ,损失为 时, 则划分的Bayes解为 其中 它表示把样品X判归 的平均损失。 含义是:当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失 然后比较其大小,选取其中最小的,则判定样 品属于该总体。 第三节 然而,如果组数k太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至第三个线性判别函数 其特征向量构成第二个判别函数的系数。 类推得到m(mk)个线性函数。 关于需要几个判别函数得问题,需要累计判别效率达到85%以上,即有 设 为B相对于E得特征根,则 以m个线性判别函数得到的函数值为新的变量,再进行距离判别。 判别规则: 第四节 以上介绍的判别准则,都是根据已知观测值(即训练样本),建立判别函数,并由判别函数给出空间 的一个划分D(即判别法)。建

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档