DNA序列要点分析.doc

下载文档 降价啦

9
0
约1.96万字
约 25页
2017-02-01 发布于湖北
举报
版权申诉
保障服务

DNA序列要点分析.doc

1、本文档共25页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

DNA序列分类摘要 2000年6月，人类基因组计划中DNA全序列草图完成，DNA全序列结构的研究成为生物信息学的一个重要课题，而DNA序列分类是研究DNA全序列结构的基础。本文采用Fisher判别对题目给出的DNA序列进行分类。问题一是在20个已知类别的人工制造DNA序列的条件下，对20个未标明类别的人工DNA序列进行分类。我们首先根据题中所给的20个已知类别的人工制造的序列（其中序列标号1—10 为A类，11-20为B类），可算出A、C、G、T在序列中出现的频率，然后建立三种分类模型，分别为K-均值聚类，系统聚类和Fisher判别模型，并分析比较模型分类的正确性和稳定性，用于确定最优的分类模型，即Fisher判别模型。最后用该方法把20个未标明类别的人工序列进行分类。利用SPSS和EXCEL软件得出以下结果：22、23、25、27、29、34、35、36、37为A类，20、21、24、26、28、30、31、32、37、38、39、40为B类。对于问题二是对题目给出的自然序列，利用问题一中的分类方法进行分类，它是问题一的推广。给出的自然序列的长度发生了变化，与问题一类似，现在本文用问题一中选出的正确率比较高的分类方法即Fisher判别法对182个自然DNA序列进行分类即可。运用SPSS和VC++，得到下面的结果： 3、20、45、70、101、136、4、21、47、71 、104、139、5 、25、49、73、105、141、6、27、52、77、106、142、8 、31、53、79、109、145、9、32、55、82、112、147、10、33、58、89、113、148、13、359、90、115、149、14、36、60、91、117、154、15、38、61、93、118、155、16、39、62、97、120、158、17、41、64、98、124、171、18、42、67、99、132 、172、19、44、69、100、134、176为A类，其余为B类。关键词：频率，K-均值聚类模型，系统聚类模型，Fisher判别模型，正确率一、问题重述人类基因组计划中DNA全序列草图是由4个字符A，T，C，G按一定顺序排成的长约30亿的序列，其中没有“断句”也没有标点符号。虽然人类对它知之甚少，但也发现了其中的一些规律性和结构。例如，在全序列中有一些是用于编码蛋白质的序列片段，即由这4个字符组成的64种不同的3字符串，其中大多数用于编码构成蛋白质的20种氨基酸。又例如，在不用于编码蛋白质的序列片段中，A和T的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外，利用统计的方法还发现序列的某些片段之间具有相关性，等等。这些发现让人们相信，DNA序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象。作为研究DNA序列的结构的尝试，提出以下对序列集合进行分类的问题： 1）请从20个已知类别的人工制造的序列（其中序列标号1—10 为A类，11-20为B类）中提取特征，构造分类方法，并用这些已知类别的序列，衡量你的方法是否足够好。然后用你认为满意的方法，对另外20个未标明类别的人工序列（标号21—40）进行分类，把结果用序号（按从小到大的顺序）标明它们的类别（无法分类的不写入）同样方法对182个自然DNA序列(它们都较长)进行分类，像1）一样地给出分类结果。二、问题分析对于问题一，属于分类问题，为了解决这一问题，本文首先从已知类别的人工制造序列来提取特征（本文是根据A、C、G、T在序列中出现的频率来提取特征的），然后学习K-均值聚类，系统聚类和Fisher判别这三种模型，并用SPSS、EXCEL和VC++软件实现分类，最后根据已知类别的人工制造序列来检验这三种分类方法的正确性，通过比较三种模型的正确率与稳定率的值，从中选出正确率与稳定率较高的一种分类模型，即Fisher判别模型，并用该方法把20个未标明类别的人工序列进行分类即可。对于问题二，序列的长度发生了变化，与问题一类似，本文用问题一中选出的正确率与稳定率较高的分类模型对182个自然DNA序列进行分类即可。三、模型假设 3.1 模型假设较长的182个自然序列与已知类别的20个样本序列具有共同的特征。认为所讨论的序列都是从DNA序列中任意截取的一部分. 所研究的这些DNA序列都是稳定的,至于在极少数情况下发生的DNA变异不予考虑四、与符号说明 :表示题目给出的DNA的序列号：分别表示第个DNA序列中的A、C、G、T碱基的出