第三章判别分析解读.pptx

下载文档 降价啦

133
0
约5.25千字
约 30页
2017-04-01 发布于湖北
举报
版权申诉
保障服务

第三章判别分析解读.pptx

1、本文档共30页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第三章判别分析费史尔(Fisher)准则判别分析贝叶斯(Bayes)准则判别分析第二章的“回归分析”是通过寻找因子，组建回归方程，对预报量的数值进行预报。然而，有些预报量并非呈现具体的数值，而是分成若干级别或类别。如降水预报可以只有“有雨”和“无雨”两类，或者更细分为暴雨、大雨、中雨、小雨等；台风路径有西路、北路、西北、原地打转等几种类别。这时，预报的任务是要判定预报对象在未来某时刻属于哪种类别，而不是估计它的具体数值。这就是“判别分析”的任务。二级判别预报对象只有两种类别的判别称为“二级判别”。例如“有雨”和“无雨”。第三章1 费史尔(Fisher)准则判别分析要想对预报对象的类别进行预测，也需要像回归分析那样寻找多个因子。例如，要预报“晴”或“雨”，以两个因子为例，找到了24小时变压(x1)和温度露点差(x2)，都可能与晴雨有关。这两个因子都是数值型的数据，因此可以把现有的观测资料绘在二维的平面图上，同时标注所属的类别(右图空心与实心圆点)。这种图称为“点聚图”。判别分析的目的，就是希望利用这些已经观测到的数据及其类别，确定出分类标准（如右图划定一条虚线将两类隔开，称为“判别线”）；对于未来观测到的任意一对因子的数值，我们就可根据圆点与虚线的相对位置，预测出未来预报量的“类别”。但是用肉眼观察划定的判别线，太主观，具有随意性 ? 能否找到一个客观的判定标准，确定出判别线？为了确定客观的判定标准，可先把两个因子的作用综合起来，采用一种简单的线性组合的形式构造出另一新变量 y，即： y=c1x1+c2x2 上式称为“判别方程”，y是x1和x2的函数，称为判别函数，c1与c2称为判别系数。如果c1和c2已知，那么对于任意一对x1和x2的观测值，代入上式可以得到一个判别函数值。注意：判别方程中的因子x1和x2都是数值型变量，所以y也是“数值”型变量，但是，预报对象却是“类别”型变量。因此需要把判别函数值y转换成类别型。可以给出一个判别指标yc，把yyc和yyc 定义为不同的类别。判别分析的基本模型判别函数的几何解释还以二元判别(两个因子) 为例，判别函数y=c1x1+c2x2 可以在三维空间中确定一个平面，称为“判别平面”。对于任意一对因子x1和x2，代入判别方程得到y值，对应于判别平面上的一个点，平面y=yc把这些点分割成两种类别。判别平面上的点投影到平面x1Ox2上就是点聚图，y=yc与判别平面的交线为DH，DH在平面x1Ox2上的投影D’H’ 就是“判别线” 。判别分析的目的判别分析的目的就是要找到一个最佳的判别线D’H’把实心点和空心点分隔开来，也就是要找到一个最佳的判别平面（ y=c1x1+c2x2 ）并确定yc，让y=yc把判别平面上的两类圆点分开。关于准则：回归分析中，回归系数的确定准则是使得残差的平方和Q达最小，那么，判别分析中，判别平面的确定需要采取什么准则？ Fisher准则为了能让两种类别的圆点更好的区分开，我们希望判别平面上，两种类别（晴天与雨天）所对应的圆点分开得越远越好，这包含两个意思： (1)同一类别内部的判别函数值越集中越好，即： (2)不同类别的散点之间的距离越远越好，即：即：同一类别内部的差异要尽可能小，两种类别之间的差异要尽可能大。将以上两条准则综合起来，要求下式达到最大：下一步，在Fisher判别准则下，如何确定出判别系数？费史尔(Fisher)判别准则判别系数的确定问题：对于m个因子，要确定其判别函数：拥有的资料——历史样本： m个因子，观测到容量为n的样本，该资料阵可记为X(m行n列)。 X的每一列称为一个“样品” 。根据对预报对象的历史观测，把这n个样品分成A、B两类，容量分别为n1和n2，有n1+n2=n, 于是原资料阵X分成了2个资料阵X(A)和X(B): 任一个样品xj(矩阵中的第j列)可以代入判别函数，得到一个yj，yj=cTxj 于是，对于A类和B类，各有一个y向量，长度分别为n1和n2：根据Fisher判别准则，想寻找一组判别系数c1,c2, …, cm, 使得：由微分学极值原理知，要使λ达到最大值，必须满足：把以上式子代入，分别得到E和F对第k个判别系数ck的微商：表示A类第k个因子的平均值与B类第k个因子的平均值之差。 sik表示A类“xi与xk的离差交叉乘积和”加B类“xi与xk的离差交叉乘积和”，即：第i个因子与第k个因子的“类内”离差交叉乘积和。每个因子的方程都含有(c1d1+c2d2+…+cmdm) / λ，于是把它记为 β = (c1d1+c2d2+…+cmdm) / λ, 把m个因子的方程都写出来，方程组为：得第k个因子的方程为：以