[商务科技]第七章 多元统计分析.ppt

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[商务科技]第七章 多元统计分析

用P(j|i)表示将本来属于总体的样品错判为总体的 其几何意义如下图 概率,即误判概率. 则根据概率的定义,易得 3.2.2 确定错判概率 (4) 目录 下页 返回 上页 结束 精确计算误判概率是一个非常困难的问题,实际 应用中,一般根据一定的规则来估计误判概率: 本占总样本的比例,并作为误判概率的估计值; (2)当训练样本足够大时,从训练样本中预留一部 分作为检验集,记录判错比率,作为误判概率的估计; 利用训练样本为检验集,用判别方法对训练样 本进行判断,统计误判的样本个数,计算误判样 目录 下页 返回 上页 结束 (3)运用舍一法:每次预留一个样本来检验,用剩 下的样本建立判别准则,循环检验完所有训练样 本, 记录判错的比率, 以此作为误判概率的估计值. 目录 下页 返回 上页 结束 错判必然带来损失. 错判损失常用赋值法确定: (1) 根据经验或者实际问题的特征人为确定; (2) 假设各种误判损失都相等. 3.2.3 确定错判损失 目录 下页 返回 上页 结束 基于前面的讨论,运用概率知识:判别法D将本 关于先验概率的平均错判损失为 来属于总体的样本错判给其它总体的平均损失为 3.2.4 确定平均损失 (5) 目录 下页 返回 上页 结束 如果能找到D*使得平均损失g(D*)达到最小,那么 D*就称为贝叶斯(Bayes)判别的解. 其中 定理7.1 设有k个总体 ,已知的 联合 密度函数为 ,先验概率为 , 错 判损失为 , 则贝叶斯(Bayes)判别的解 为 目录 下页 返回 上页 结束 影后组与组之间的差异尽可能的大,然后根据一 定的判别规则对新样本的类别进行判断. 费希尔判别的基本思想:借助于方差分析的思想, 利用投影将元的数据投影到某一个方向,使得投 3.3 费希尔判别 目录 下页 返回 上页 结束 首先构造一个线性判别函数 差异最大,总体内部的离差最小. 上面的函数将m元的数据投影到了一个方向,系 数 的确定原则是使得总体间的 目录 下页 返回 上页 结束 令 3.3.1 确定线性判别函数 设有k个m元总体: ,它们的均值 为: ;协方差为: . 在 的条件下,有 目录 下页 返回 上页 结束 应该达到最大. 确定A, 使得k个总体间的差异最大,总体内部的 离差最小,则比值 其中 . , , 为了确保A的唯一性,不妨设 . 问题转化为:在条件 约束下,求A使得 目录 下页 返回 上页 结束 极值的问题. 求解得 根据拉格朗日乘子法: 式达到最大——这是大家非常熟悉的条件 目录 下页 返回 上页 结束 * * 数学建模简明教程 国家精品课程 第七章 多元统计分析 一、问题引入 二、思路点拨 三、判别分析方法 四、DNA序列分类问题的求解 目录 下页 返回 上页 结束 2000年“网易杯”全国大学生数学建模竞赛的 人类基因组中的DNA全序列是由4个碱基 A, T, C, G按一定顺序排成的长约30亿的序列, 毫无 疑问, 这是一本记录着人类自身生老病死及遗传 进化的全部信息的“天书”. 但是, 除了这四种碱基 碱基外, 人们对它所包含的内容知之甚少,如何破 A题是关于“DNA序列分类”的问题 : 一、问题引入与分析 目录 下页 返回 上页 结束 译这部“天书”是二十一世纪最重要的任务之一. 在这个目标中,研究DNA全序列具有什么结构, 学 (Bioinformatics) 最重要的课题之一. 虽然人 类对这部“天书”知之甚少, 但也发现了DNA序列 中的一些规律性和结构. 例如,在全序列中有一 由这4个字符排成的看似随机的序列中隐藏着什 么规律, 又是解读这部天书的基础,是生物信息 些是用于编码蛋白质的序列片段,即由这4个字 目录 下页 返回 上页 结束 符组成的64种不同的3字符串,其中大多数用于 编码构成蛋白质的20种氨基酸. 又例如,在不用 DNA序列的结构也取得了一些结果. 此外,利用 统计的方法还发现序列的某些片段之间具有相关 性,等等. 这些发现让人们相信,DNA序列中存 于编码蛋白质的序列片段中,A和T的含量特别 多些,于是以某些碱基

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档