第四讲判别分析.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
判别分析 判别分析应用十分广泛 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。 在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型; 在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销; 在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等; 在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层; 在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在医疗诊断中,根据某人多种体检指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。 判别分析与聚类分析的区别 聚类分析和判别分析有相似的之处,都是起到分类的作用。 但是,判别分析是已知分类然后总结出判别规则,是一种有指导的学习。即:判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。 而聚类分析则是有了一批给定样品,而要划分的类型事先并不知道,甚至连分成几类也不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观测相差较多,这是无指导的学习。 正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。 判别分析的目的是对已知分类的数据建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样品去分类。 例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别,把这种区别表示为一个判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。 判别分析内容: 判别分析按判别的组数来区分,有两组判别分析和多组判别分析; 按区分不同总体的所用的数学模型来分,有线性判别和非线性判别; 按判别时所处理的变量方法不同,有逐步判别和序贯判别等。 判别分析可以从不同角度提出问题,因此有不同的判别准则, 如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等, 按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher判别法、Bayes判别法和逐步判别法。 距离判别法 基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。 距离判别法,对各类(或总体)的分布,并无特定的要求。 1、 两个总体的距离判别法 设有两个总体(或称两类)G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标如下表: 下面用马氏距离对上述准则做较详细讨论 分别为:G1、G2的均值向量和协差阵。如果距离定义采用马氏距离即: 这时判别准则可分以下两种情况给出: 2、多个总体的距离判别法 例1:人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别采用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数。资料来源:UNDP《人类发展报告》1995年。 今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别分析。 用SAS实现的判别分析实例 解:A盆地和B盆地看做两个不同的总体,并假定两总体协差阵相等.本例中变量个数p=4,两类总体各有5个训练样品 (nl=n2=5),另有8个待判样品.下面用SAS/STAT软件中的 DISCRIM过程进行判别归类. 以下SAS程序首先生成SAS数据集D6ll,然后调用 DISCRIM过程对含钾和不含钾的A,B两类盆地的10个样品特征测量值用距离判别的方法,建立线性判别函数,并对已知类别的 样品和待判样品进行判别归类. 输出6.1.1至输出6.1.3是SAS程序输出的部分结果. 误判概率 下面的Bayes判别法则是将误判概率、误判造成的损失以及各个总体出现的先验概率结合起来建立的一种判别

文档评论(0)

wuyoujun92 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档