第三章判别分析解读.pptx

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章 判别分析 费史尔(Fisher)准则判别分析 贝叶斯(Bayes)准则判别分析 第二章的“回归分析”是通过寻找因子,组建回归方程,对预报量的数值进行预报。 然而,有些预报量并非呈现具体的数值,而是分成若干级别或类别。 如 降水预报可以只有“有雨”和“无雨”两类,或者更细分为暴雨、大雨、中雨、小雨等;台风路径有西路、北路、西北、原地打转等几种类别。 这时,预报的任务是要判定预报对象在未来某时刻属于哪种类别,而不是估计它的具体数值。这就是“判别分析”的任务。 二级判别 预报对象只有两种类别的判别称为“二级判别”。例如“有雨”和“无雨”。 第三章1 费史尔(Fisher)准则判别分析 要想对预报对象的类别进行预测,也需要像回归分析那样寻找多个因子。 例如,要预报“晴”或“雨”,以两个因子为例,找到了24小时变压(x1)和温度露点差(x2),都可能与晴雨有关。 这两个因子都是数值型的数据,因此可以把现有的观测资料绘在二维的平面图上,同时标注所属的类别(右图空心与实心圆点)。这种图称为“点聚图”。 判别分析的目的,就是希望利用这些已经观测到的数据及其类别,确定出分类标准(如右图划定一条虚线将两类隔开,称为“判别线”);对于未来观测到的任意一对因子的数值,我们就可根据圆点与虚线的相对位置,预测出未来预报量的“类别”。 但是用肉眼观察划定的判别线,太主观,具有随意性 ? 能否找到一个客观的判定标准,确定出判别线? 为了确定客观的判定标准,可先把两个因子的作用综合起来,采用一种简单的线性组合的形式构造出另一新变量 y,即: y=c1x1+c2x2 上式称为“判别方程”,y是x1和x2的函数,称为判别函数,c1与c2称为判别系数。 如果c1和c2已知,那么对于任意一对x1和x2的观测值,代入上式可以得到一个判别函数值。 注意: 判别方程中的因子x1和x2都是数值型变量,所以y也是“数值”型变量,但是,预报对象却是“类别”型变量。 因此需要把判别函数值y转换成类别型。可以给出一个判别指标yc,把yyc和yyc 定义为不同的类别。 判别分析的基本模型 判别函数的几何解释 还以二元判别(两个因子) 为例, 判别函数y=c1x1+c2x2 可以在三维空间中确定一个平面,称为“判别平面”。 对于任意一对因子x1和x2,代入判别方程得到y值,对应于判别平面上的一个点,平面y=yc把这些点分割成两种类别。 判别平面上的点投影到平面x1Ox2上就是点聚图,y=yc与判别平面的交线为DH,DH在平面x1Ox2上的投影D’H’ 就是“判别线” 。 判别分析的目的 判别分析的目的就是要找到一个最佳的判别线D’H’把实心点和空心点分隔开来,也就是要找到一个最佳的判别平面( y=c1x1+c2x2 )并确定yc,让y=yc把判别平面上的两类圆点分开。 关于准则: 回归分析中,回归系数的确定准则是使得残差的平方和Q达最小,那么, 判别分析中,判别平面的确定需要采取什么准则? Fisher准则 为了能让两种类别的圆点更好的区分开,我们希望判别平面上,两种类别(晴天与雨天)所对应的圆点分开得越远越好, 这包含两个意思: (1)同一类别内部的判别函数值越集中越好,即: (2)不同类别的散点之间的距离越远越好,即: 即:同一类别内部的差异要尽可能小,两种类别之间的差异要尽可能大。 将以上两条准则综合起来,要求下式达到最大: 下一步,在Fisher判别准则下,如何确定出判别系数? 费史尔(Fisher)判别准则 判别系数的确定 问题:对于m个因子,要确定其判别函数: 拥有的资料——历史样本: m个因子,观测到容量为n的样本,该资料阵可记为X(m行n列)。 X的每一列称为一个“样品” 。 根据对预报对象的历史观测,把这n个样品分成A、B两类,容量分别为n1和n2,有n1+n2=n, 于是原资料阵X分成了2个资料阵X(A)和X(B): 任一个样品xj(矩阵中的第j列)可以代入判别函数,得到一个yj,yj=cTxj 于是,对于A类和B类,各有一个y向量,长度分别为n1和n2: 根据Fisher判别准则,想寻找一组判别系数c1,c2, …, cm, 使得: 由微分学极值原理知,要使λ达到最大值,必须满足: 把以上式子代入,分别得到E和F对第k个判别系数ck的微商: 表示A类第k个因子的平均值与B类第k个因子的平均值之差。 sik表示A类“xi与xk的离差交叉乘积和”加B类“xi与xk的离差交叉乘积和”, 即:第i个因子与第k个因子的“类内”离差交叉乘积和。 每个因子的方程都含有(c1d1+c2d2+…+cmdm) / λ, 于是把它记为 β = (c1d1+c2d2+…+cmdm) / λ, 把m个因子的方程都写出来,方程组为: 得第k个因子的方程为: 以

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档