- 1、本文档共25页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
§4.4 逐步判别计算方法 由上节介绍的贝叶斯准则,我们可以建立多 总体的判别函数为 显然,在上式 个判别函数的形成中,我们是将 个特征变量一次性全部引入各类总体的判别函 数中。如此一来,就会导致计算量增大,变量间 可能出现相互不独立,方程组阶数太高,以及矩 阵奇异等问题。此外,由于不重要变量的引入 还可能起反作用,干扰判别效果,经验表明, 变量个数的增加并不一定能提高判别效果。因 此很重要的一个问题是,如何从多个变量中挑 选出若干个对于区分 个总体最有效的变量? 这就是逐步判别分析所要解决的问题。 逐步判别与逐步回归的形成思想相似,都采 用有进有出的动态调节变量方法,即每一步都通 过检验把判别能力最强的一个变量引入判别函数 式中。同时也考虑到较早进入判别式的某些变量 ,其判别能力因其他变量的引入而可能下降,应 及时从判别式中剔出,最终在判别式中只保留数 量不太多而判别能力又较强的变量。逐步判别分 析挑选变量的基本思想与逐步回归一致,所不同 的是在逐步回归中剔除或引入变量的标准用的是 §4.4 逐步判别计算方法 变量对回归方程的方差贡献大小来度量,大的引 入,小的剔除。而逐步判别分析用的是参加判别 式的各变量的组合统计量——Wilks∧值来度量 哪些变量可以引入判别方程,哪些变量需从判别 方程中剔除? 定义 Wilks∧统计量为 (4.25) 式(4.25)中, , 为已进入判别式的 个 变量所构成的组内离差阵与总离差阵。最初计 算 , 时, ) 其中, (4.26) ——称组均值 ——称总均值 事实上式(4.25)的构造思想源于Fisher准则, 即要使判别效果明显,组内离差平方和越小越 好,两组间离差平方和越大越好。 对于式(4.25),一旦原始数据给定 可看 成不变,因此只要 越小就说明判别效果越 好,也就是 越小,判别效果就越好。为此可 考虑用统计量 来度量变量是否重要。 §4.4.1 判别函数中变量引人过程形成思想 由式(4.21)可知,不妨设 次迭代该 判别式中已引入 个变量,此时我们总可以由 式(4.25)计算出相应 个变量的Wilks∧统计 值,记为 ,此时在判别式外,还有 个变 量未引入判别式,于是我们总可以在剩下的 个变量中用穷举的方法,让 个变量中 的每一个变量与已进入方程的 个变量配对构 成 个变量的判别方程,用数学式子来说明 问题,即将 简记为 (4.29) 其中 , ,…, 表示已进入方程中的 个 变量,显然未进入方程组的变量为 ,记为 。 为了讨论方便,这里假设变量是按自然顺 序选中的,即第 步恰好选中 ,这并不失去 一般性,因为把变量顺序重新编排总能保证这 一点。按照穷举法,分别将 引入 式(4.29),并计算出相应的 +1个变量的 Wilks∧统计值,记为 。 显然只需选择 与 比较。如果 则说明该变量 引入判 别方程后,判别效果有了改善,反之 不能引 入。 但是用 进行计算很复杂,于是我们 给出一种便于计算,又与 等效的另一个统计 量 的简化式,来衡量变量的的重要性[4]。 可以证明化简后有 (4.30) 式中, ——表示通过S 次迭代后W 阵在 行 列的元素; ——表示通过S 次迭代后 阵在 行 列的 元素。在开始时,首先考虑引入,为此需要计算 所有变量 所对应的 , 选取 进入方程,不妨 设 能否最后进入方程,还需要与引入门坎 值比较,为了确定引入门坎值标准,可用如下 统计量[5]: (4.31) 对于给定水平 ,查F 分布表可得门坎值 ,如果 ,则认为变量 重要,可以引入方 程,否则变量不能引入方程。 §4.4.2 判别函数中变量的剔除过程形成思想 设通过S次迭代,判别函数中已引入
文档评论(0)