- 1、本文档共51页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
气象统计预报9
课程名称:气象统计预报 鸢尾花数据(预测分类结果小结) 判别函数的性能: 可以通过回代的方法进行判别函数性能的验证。即 将各变量的观测值代入判别函数中,根据判别函数的值确定每个观测量属于哪一类。然后与原始数据中的分类结果进行比较,得到错判率。 错判率越小,说明判别函数的判别性能越好。 判别函数: y1=-0.346X1-0.525X2+0.846X3+0.613X4 y2= 0.039X1+0.742X2-0.386X3+0.555X4 判别函数系数 标准化的典则判别函数系数(使用时必须用标准化的自变量) 典则判别函数系数 类中心: G1: Y1=-7.392 Y2=0.219 G2: Y1= 1.763 Y2=-0.737 G3: Y1=5.629 Y2= 0.518 这是类均值(重心)处的典则判别函数值 鸢尾花数据(用判别函数对观测量分类结果) 先验概率(没有给) 利用判别函数对观测量进行分类: Discriminant过程导出的 Fisher 线性判别函数的个数与类别数目相同。 确定一个观测量属于哪一类,可以把该观测量的各变量值代入每个判别函数,哪个判别函数值大,该观测量就属于哪一类。 可以看出分错率 在天气预报中,更常用的是多类或多级的预报、例如降水量的预报可分为:暴雨、大雨、中雨、小雨和无雨等五级. 多级判别 判别函数离差垫平方和的分解 假设根据需要,把预报量分为G类,取样本容量为n的样本。对此样本,根据预报量的G类级别分为G组,每组样本容量分别n1,n2,n3,….nG. 选取p个因子x1,x2,…xp。类似二级判别,由它们的线性组合构成一个判别函数,表示为 y=v1x1+ v2x2+………….+ vpxp v1, v2,………… vp 为判别系数。 判别函数的总离差平方和 令: 表示组间判别函数的离差平方和 表示组内判别函数的离差平方和 则判别函数的总离差平方和为 Syy=E+F 多级判别费歇准则 又有: 并令: 类似有: 且有: T=B+W 根据极值原理,求判别函数系数的方程为: (W-1B-λI)v=0 即求 W-1B 矩阵的特征向量问题。 判别函数的性质 (i)判别函数的离差平方和与矩阵W-1B的特征值有关; (ii)判别函数之间是互无相关的 判别函数的显著性检验 进行检验.式中|W|为矩W的行列式.在因子固定的情况下因子总离差交叉积阵的行列式|T|的值是不变的.当组内离差交叉积阵行列式|W|小时, 的值就小.同时组间离差交叉积阵的行列式就有可能较大.这种情况表明,在因子中,各组内样品点比较集中,而组间的重心点之间距离较大. 实际检验时,按判别函数的重要性逐个进行检验.一开始检验头一个特征值所对应的判别函数.如果检验的结果是显著的,然后再检验第二个特征值所对应的判别函数。 如果第二个判别函数检验的结果是显著的,再逐步检验下去。直到某一判别函数不显著为止。 决策规则 有了判别函数之后,要作出预报还需要有预报判据,在统计上称为决策规则.常用的有两种决策规则: (1)利用贝叶斯定理求后验概率分布 (2)距离判别规则 多级判别计算步骤 (1)选择适当因子,并根据预报量类别确定不同类别的样本,计算各组因子的平均值和总平均值; (2)计算总离差交叉积阵T,组内离差交叉积阵W及组间离差交叉积阵B; (3)求W-1B的特征值及特征向量,得V阵; (4)对判别函数进行显著性检验,以便确定选取多少个判别函数构成判别空间; (5)计算各样品点与各组重心距离并进行分类判别. * 授课教师:张 武 ( 大气科学学院 ) 辅 导: 时 间:2009.09 ~2010.01 Statistic Analysis Forecast Methods In Meteorology Classifying-Ⅱ 判别分析 Discriminant Analysis 判别分析 Discriminant Analysis 已知:存在两个总体A和B. 给出一个随机样本,其中每个个体肯定来自总体A;给出另一个随机样本,其中每个个体肯定来自总体B。 我们如何制定一个准则,使来源未知的其它个体能够分配到正确的总体中去? 且希望在某种最优的意义上做到这一点:例如错分尽可能少,或者如果有错分则要使其带来的代价最小。 至少存在如下4类情况可以回答这个问题: 1)丢失信息:考古学家或人类学家需要知道在古代墓地发现的骨架的性别。当研究对象是活着的话,就不会存在问题,因为有充分多的活的材料。根据这些材
文档评论(0)