数学建模_DNA序列分类模型_(终稿)概论.pdf

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DNA 序列分类模型 摘要 本文分析了已知类别的人工 DNA 序列的特征,建立了聚类分析延拓模型和 马尔可夫模型,分别对未知类别的人工 DNA 序列和自然序列进行分类,根据分 类效果选出了较优模型。 首先对数据进行预处理,得到人工DNA 序列的单个碱基丰度和不同碱基丰度 之比等特征量,进而分析A 、B 两类的差异,得到合适的特征判定条件对未知类 别的DNA 序列进行分类。计算人工DNA 序列的特征量,给出各序列的统计数据。 其次用聚类分析延拓模型进行分类。用 A 、B 两类具有明显差异的特征作为 样品特征变量,得到欧式空间中表征编号1-20 人工DNA 序列的特征向量,计算 两两之间的Lance 和Williams 距离进行相似性度量,逐步选择相似性较大的归为 一类,同时不断更新类内的标准比较特征向量,对聚类方法进行延拓,最终得到 类内差异小、类间差异大的A 、B 两类,建立了聚类分析延拓模型。再对选取的 特征变量进行改进,提高模型的分类效果。最后,借助均值、方差和相关系数等 参数对改进模型的分类效果进行分析。 再次用马尔可夫模型进行分类。将 DNA 序列看成是马尔可夫链,求出编号 1-10 和 11-20 人工 DNA 序列在已知当前碱基种类的条件下,下一个碱基出现任 一种的概率,结果存入概率转移矩阵1 和2,再利用矩阵1 和2 分别求出编号1-20 中任一条DNA 序列出现的概率,选择较大的一个作为该DNA 序列的分类,建立 马尔可夫模型。再进行与聚类分析延拓模型类似的改进和检验工作,然后对编号 21-40 人工DNA 序列和182 条自然序列进行分类,得到最终结果。 最后,用层次分析法综合评价模型一与模型二,选择聚类分析延拓模型作为 最终模型,其分类结果作为最终结果,具体如下: 编号21-40 人工DNA 序列中属于A 类的样品编号为:22,23,25,27,29, 30,34,35,36,37,39 ;属于B 类的样品编号为:21,24,26,28,31,32, 33,38,40 。 182 条自然序列中,属于B 类的样品编号为:7,10,12,22,23,24,26, 28,30,34,43 ,48 ,50,54,57,65,75,76,80 ,84 ,85 ,86 ,92 ,98 , 103,107,110,114,116,119,121,122,123,127,128,129,130,131, 137,138,140,142,143,144,146,151,156,159,161,162,163,166, 168,170,173,174,175,179,180,181,182;其余为A 类。 关键词 DNA 序列分类 聚类分析延拓法 Lance 和Williams 距离 马尔可夫 法 一、问题重述 1.1 题目背景 (1)2000 年6 月,人类基因组计划中DNA 全序列草图完成,预计2001 年可 以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的 全部信息的“天书”。 (2)这本 “天书”是由4 个字符A,T,C,G 按一定顺序排成的无间隔的长 约30 亿的序列,除了这4 个字符表示4 种碱基以外,人们对它包含的“内容” 知之甚少。因此,破译这部世界上最巨量信息的“天书”是二十一世纪最重要的 任务之一。 (3)为解读这部“天书”,首先要研究DNA 全序列具有什么结构,以及由这 4 个字符排成的看似随机的序列中隐藏着什么规律,这也是生物信息学最重要的 课题。 1.2 题目信息 (1)DNA 序列分为编码区与非编码区。编码区是用于编码蛋白质的序列片段, 即由这4 个字符组成的64 种不同的3 字符串,其中大多数用于编码构成蛋白质 的20 种氨基酸。 (2)在不用于编码蛋白质的序列片段中,A 和T 的含量特别多些,于是以某 些碱基特别丰富作为特征去研究DNA 序列的结构也取得了一些结果。 (3)利用统计的方法还发现序列的某些片段之间具有相关性。 这些发现说明DNA 序列中存在着局部的和全局性的结构,充分发掘序列的结 构对理解DNA 全序列有十分重要的意义。目前在这项研究中最普通的思想是省略 序列的某些细节,突出特征,然后将其表示成适当的数学对象。 1.3 题目要求 (1)有20 个已知类别的人工制造的DNA 序列(见附件1),其中序列标号

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档