数学建模_DNA序列分类模型_(终稿)概论.pdf

下载文档 降价啦

28
0
约4.87万字
约 30页
2017-06-26 发布于湖北
举报
版权申诉
保障服务

数学建模_DNA序列分类模型_(终稿)概论.pdf

1、本文档共30页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

DNA 序列分类模型摘要本文分析了已知类别的人工 DNA 序列的特征，建立了聚类分析延拓模型和马尔可夫模型，分别对未知类别的人工 DNA 序列和自然序列进行分类，根据分类效果选出了较优模型。首先对数据进行预处理，得到人工DNA 序列的单个碱基丰度和不同碱基丰度之比等特征量，进而分析A 、B 两类的差异，得到合适的特征判定条件对未知类别的DNA 序列进行分类。计算人工DNA 序列的特征量，给出各序列的统计数据。其次用聚类分析延拓模型进行分类。用 A 、B 两类具有明显差异的特征作为样品特征变量，得到欧式空间中表征编号1-20 人工DNA 序列的特征向量，计算两两之间的Lance 和Williams 距离进行相似性度量，逐步选择相似性较大的归为一类，同时不断更新类内的标准比较特征向量，对聚类方法进行延拓，最终得到类内差异小、类间差异大的A 、B 两类，建立了聚类分析延拓模型。再对选取的特征变量进行改进，提高模型的分类效果。最后，借助均值、方差和相关系数等参数对改进模型的分类效果进行分析。再次用马尔可夫模型进行分类。将 DNA 序列看成是马尔可夫链，求出编号 1-10 和 11-20 人工 DNA 序列在已知当前碱基种类的条件下，下一个碱基出现任一种的概率，结果存入概率转移矩阵1 和2，再利用矩阵1 和2 分别求出编号1-20 中任一条DNA 序列出现的概率，选择较大的一个作为该DNA 序列的分类，建立马尔可夫模型。再进行与聚类分析延拓模型类似的改进和检验工作，然后对编号 21-40 人工DNA 序列和182 条自然序列进行分类，得到最终结果。最后，用层次分析法综合评价模型一与模型二，选择聚类分析延拓模型作为最终模型，其分类结果作为最终结果，具体如下：编号21-40 人工DNA 序列中属于A 类的样品编号为：22，23，25，27，29， 30，34，35，36，37，39 ；属于B 类的样品编号为：21，24，26，28，31，32， 33，38，40 。 182 条自然序列中，属于B 类的样品编号为：7，10，12，22，23，24，26， 28，30，34，43 ，48 ，50，54，57，65，75，76，80 ，84 ，85 ，86 ，92 ，98 ， 103，107，110，114，116，119，121，122，123，127，128，129，130，131， 137，138，140，142，143，144，146，151，156，159，161，162，163，166， 168，170，173，174，175，179，180，181，182；其余为A 类。关键词 DNA 序列分类聚类分析延拓法 Lance 和Williams 距离马尔可夫法一、问题重述 1.1 题目背景（1）2000 年6 月，人类基因组计划中DNA 全序列草图完成，预计2001 年可以完成精确的全序列图，此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。（2）这本 “天书”是由4 个字符A，T，C，G 按一定顺序排成的无间隔的长约30 亿的序列，除了这4 个字符表示4 种碱基以外，人们对它包含的“内容” 知之甚少。因此，破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。（3）为解读这部“天书”，首先要研究DNA 全序列具有什么结构，以及由这 4 个字符排成的看似随机的序列中隐藏着什么规律，这也是生物信息学最重要的课题。 1.2 题目信息（1）DNA 序列分为编码区与非编码区。编码区是用于编码蛋白质的序列片段，即由这4 个字符组成的64 种不同的3 字符串，其中大多数用于编码构成蛋白质的20 种氨基酸。（2）在不用于编码蛋白质的序列片段中，A 和T 的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA 序列的结构也取得了一些结果。（3）利用统计的方法还发现序列的某些片段之间具有相关性。这些发现说明DNA 序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA 全序列有十分重要的意义。目前在这项研究中最普通的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象。 1.3 题目要求（1）有20 个已知类别的人工制造的DNA 序列（见附件1），其中序列标号