- 1、本文档共31页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
36. 判别分析(一)基本原理判别分析,是用以判别个体所属类的一种统计方法。其原理是根据已掌握的一批分类明确的样品,建立一个较好的判别函数,使得用该判别函数进行判别时错判事例最少,进而能用此判别函数对给定的一个新样品判别它来自哪个总体。判别分析方法通常要给出一个判别指标(判别函数),同时还要指定一种判别规则。一、距离判别法未知总体的样品x离哪个总体的距离最近,就判断它属于哪个总体。1. 对于两个正态总体G1, G2距离选用马氏(Mahalanobis)距离:d2(x, G1) = (x-μ1)T∑1-1(x-μ1)d2(x, G2) = (x-μ2)T∑2-1(x-μ2)其中,μ1, μ2, ∑1, ∑2分别为总体G1, G22的均值和协差矩阵。令W(x) = d2(x, G1) - d2(x, G2)称为判别函数,若∑1=∑2时,W(x)是线性函数,此时称为线性判别;若∑1≠∑2,W(x)是二次函数。2. 多总体情况设有m个总体:G1, …, Gm,其均值、协差阵分别为μi, ∑i. 对给定的样品x,按距离最近的准则对x进行判别归类:首先计算样品x到m个总体的马氏距离di2(x), 然后进行比较,把x判归距离最小的那个总体,即若dh2(x) = min{ di2(x) | i = 1,…,m},则x∈Gh.二、Fisher线性函数判别法为了方便使用,需要寻找尽量简单的判别函数,其中在Fisher准则下的线性判别函数就是只利用总体的一、二阶矩就可求得的判别函数。图1 Fisher线性判别分析示意图下面以两个总体为例来说明Fisher判别的思想。 设有两个总体G1、G2,其均值分别为1和2,协方差阵分别1和2,并假定1 = 2 = ,考虑线性组合:y = LTx。通过寻求合适的L向量,使得来自两个总体的数据间的距离较大,而来自同一个总体数据间的差异较小。为此,可以证明,当选L=c–1(1–2),其中c 0时,所得的投影即满足要求。从而称c = 1时的线性函数:y = LTx = (1 – 2)T–1x为Fisher线性判别函数。其判别规则为:其中,m为两个总体均值在投影方向上的中点,即三、贝叶斯判别法设m个总体G1, …, Gm,其分布密度分别为f1(x), …, fm(x),各自的先验概率(可以根据经验事先给出或估出)分别为q1, …, qm,显然当抽取了一个未知总体的样品x,要判断它属于哪个总体,可用著名的贝叶斯公式计算x属于第j个总体的后验概率:若则判断x属于第h个总体。或者计算按先验概率加权的误判平均损失:其中,C(j | i)为假定本来属于Gi的样品被判为属于Gj时造成的损失,当然C(i | i) = 0,C(j | i) 0. 再比较这m个误判平均损失的h1(x), …, hm(x)的大小,选取其中最小的,就可以判定样品x来自该总体。在实际问题中,错判的损失可以给出定性分析,但很难用数值来表示,但应用贝叶斯判别法时,要求定量给出C(j | i),C(j | i)的赋值。通常:根据经验人为赋值;假定各种错判的损失都相等。 错判概率 当样品xGi,用判别法判别时,把x判给Gj (i≠j),出现错判。用P(j|i))表示实属Gi的样品错判为Gj的概率。 广义平方距离判别法 在正态总体的假定下,按贝叶斯判别的思想,在错判造成的损失认为相等的情况下得到的判别函数,其实就是马氏距离判别法在考虑先验概率及协方差阵是否相等情况下的推广,故在SAS的DISCRIM过程中称为广义平方距离判别法。四、逐步判别法 所有变量中,有的变量对区分k个总体的判别能力可能很强,有的可能很弱。如果不加区别地用全部变量来建立判别函数,则必增加大量的计算,还可能因为变量间的相关性引起计算上的困难(病态或退化等)及计算精度的降低。另一方面由于一些对区分k个总体的判别能力很小的变量的引入,产生干扰,致使建立的判别函数不稳定,反而影响判别效果,因此自然提出一个变量的选择问题。即如何从m个变量中挑选出对区分k个总体有显著判别能力的变量,来建立判别函数,用以判别归类。 1. 各变量判别能力的检验筛选判别变量和做逐步判别,都需要检验各变量的判别能力。若第i个分量间没有显著差异时,说明相应的变量Xi对判别分类不起作用,应该剔除。变量判别能力的度量通常采用删去该变量后考察判别能力的变化,即考察该变量对区分k个类是否能提供更多的附加信息,然后由附加信息构造F统计量进行检验。 利用F统计量对假设(H0:第i个变量在k个总体中的均值相等)作统计检验。若否定H0,表示变量Xi对区分k个总体的判别能力是显著的(在显著水平α下)。否则,变量Xi对区分k个总体的判别能力不能提供附加信息,这个变量应剔除。2. 基本思想 逐个引入变量,每次把一个判别能力最强的变量引入判别式,每引入
您可能关注的文档
最近下载
- 13价肺炎球菌多糖结合疫苗(破伤风类毒素白喉类毒素)(CXSS1900046)-申请上市技术审评报告 (2).pdf VIP
- 医疗器械生产基地项目环评(新版环评)环境影响报告表.pdf VIP
- (工艺技术)零件加工工艺过程.pdf VIP
- 《跳骆驼》参考课件.ppt VIP
- TAHFIA050-2020长丰草莓规范.pdf
- 心血管介入的并发症ppt.pptx
- 部编版语文四年级上册第4单元《语文园地四》课件.pptx VIP
- 【优选精文】三调土地利用现状工作分类.docx VIP
- (工艺技术)零件加工工艺设计.pdf VIP
- 基于数学核心素养下的小学数学探究性学习策略的研究课题全过程材料.doc
文档评论(0)