- 1、本文档共46页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
定理1:设有 个总体: ,已知 的联合密度函数为 ,先验概率为 ,错判损失为 ,则贝叶斯(Bayes)判别的解 为 其中 ……(6) 下面给出贝叶斯(Bayes)判别的解的主要结论 : 3.3 费希尔判别 费希尔判别的基本思想:借助于方差分析的思想,利用投影将 元的数据投影到某一个方向,使得投影后组与组之间的差异尽可能的大,然后根据一定的判别规则对新样本的类别进行判断。 首先构造一个线性判别函数 ……(7) 可见上面的函数将 元的数据投影到了一个方向,系数 的确定原则是使得总体间的差异最大,总体内部的离差最小。 A.确定线性判别函数 设有 个 元总体: ,它们的均值为: ;协方差为: 。 在 的条件下,有 令 这里 确定 ,使得 个总体间的差异最大,总体内部的离差最小,则 应该达到最大。 为了确保 的唯一性,不妨设 。因此,问题转化为:在条件 约束下,求 使得 式达到最大——这是大家非常熟悉的条件极值的问题。根据拉格朗日乘子法: 求解得 ……(8) 由方程(8)第一式知, 是 的特征根, 是相应的特征向量。可以证明 ( 的大小可以衡量判别函数 的判别效果,故称 为判别效率)。设 的非零特征根为 ,相应的满足约束条件的特征向量为 ,显然,取 时 达到最大。 B.确定判别规则 假设系数 已经求出,那么线性判别函数 就完全确定下来,对于一个新的样品 ,可以构造下面的判别规则: ……(9) 3.4 判别分析模型的显著性检验 建立了判别分析模型以后还需要对模型进行评价,这就需要对判别分析模型的显著性进行检验,主要包括两个方面:判别效果的检验和各变量判别能力的检验[1,2]。所谓判别效果的检验就是检验 k 个总体的均值是否有显著的差异,反映了采用判别分析模型的有效性问题;各变量判别能力的检验反映的是各指标(因素)对判别分类所起的作用时候显著。具体的检验方法因为过于复杂,这里不再赘述。 需要说明的是,作为多元统计分析中的经典方法,判别分析在许多关于多元统计分析的教材中均有详细而深刻的论述。 4.DNA序列分类问题的求解 关于DNA序列分类问题的讨论和分析,我们在第1部分和第2部分已经作了详细的分析和讨论。这里,我们将根据多元统计分析的知识建立判别分析模型来求解DNA序列的分类问题(这里只求解问题一)。 首先,需要提取每条序列的所蕴含的特征——因为将序列的全部信息都作为指标(因素)来建立判别模型是不可能的。 A.特征的提取 DNA序列中所蕴含的信息是非常丰富的,因此,如何提取特征、提取什么特征是一个非常困难的问题——这个问题涉及到生物学的知识,此处将不深入展开讨论。我们考虑采用序列中4个碱基A,T,C,G的含量百分比作为DNA序列的特征。 为了便于讨论,我们用 表示碱基A在序列中所占的百分比; 表示碱基T在序列中所占的百分比; 表示碱基C在序列中所占的百分比; 表示碱基G在序列中所占的百分比。因为, + + + =1,因此 、、 和 中只有三个变量是独立的,不失一般性,我们选取 、 和 为指标,以 表示第 个DNA序列的特征向量,换句话说, “完全”代表第 个DNA序列。 正如前面第2部分中所分析的:在此DNA序列分类问题中,共有两个已知的总体(类) (A类)和 (B类),而且,训练样本共有 个,其中,前10个样本(记为 )属于总体(类) ;后 10个样本(记为 )属于总体 (类) 。 需要解决的问题是:对给定的新样品 ,我们需要判断其属于哪个总体(类)。 B.建立判别模型
文档评论(0)