- 1、本文档共25页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DNA序列分类
摘要
2000年6月,人类基因组计划中DNA全序列草图完成,DNA全序列结构的研究成为生物信息学的一个重要课题,而DNA序列分类是研究DNA全序列结构的基础。本文采用Fisher判别对题目给出的DNA序列进行分类。
问题一是在20个已知类别的人工制造DNA序列的条件下,对20个未标明类别的人工DNA序列进行分类。我们首先根据题中所给的20个已知类别的人工制造的序列(其中序列标号1—10 为A类,11-20为B类),可算出A、C、G、T在序列中出现的频率,然后建立三种分类模型,分别为K-均值聚类,系统聚类和Fisher判别模型,并分析比较模型分类的正确性和稳定性,用于确定最优的分类模型,即Fisher判别模型。最后用该方法把20个未标明类别的人工序列进行分类。利用SPSS和EXCEL软件得出以下结果:22、23、25、27、29、34、35、36、37为A类,20、21、24、26、28、30、31、32、37、38、39、40为B类。
对于问题二是对题目给出的自然序列,利用问题一中的分类方法进行分类,它是问题一的推广。给出的自然序列的长度发生了变化,与问题一类似,现在本文用问题一中选出的正确率比较高的分类方法即Fisher判别法对182个自然DNA序列进行分类即可。运用SPSS和VC++,得到下面的结果:
3、20、45、70、101、136、4、21、47、71 、104、139、5 、25、49、73、105、141、6、27、52、77、106、142、8 、31、53、79、109、145、9、32、55、82、112、147、10、33、58、89、113、148、13、359、90、115、149、14、36、60、91、117、154、15、38、61、93、118、155、16、39、62、97、120、158、17、41、64、98、124、171、18、42、67、99、132 、172、19、44、69、100、134、176为A类,其余为B类。
关键词:频率,K-均值聚类模型,系统聚类模型,Fisher判别模型,正确率
一、问题重述
人类基因组计划中DNA全序列草图是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号。虽然人类对它知之甚少,但也发现了其中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:
1)请从20个已知类别的人工制造的序列(其中序列标号1—10 为A类,11-20为B类)中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入)
同样方法对182个自然DNA序列(它们都较长)进行分类,像1)一样地给出分类结果。
二、问题分析
对于问题一,属于分类问题,为了解决这一问题,本文首先从已知类别的人工制造序列来提取特征(本文是根据A、C、G、T在序列中出现的频率来提取特征的),然后学习K-均值聚类,系统聚类和Fisher判别这三种模型,并用SPSS、EXCEL和VC++软件实现分类,最后根据已知类别的人工制造序列来检验这三种分类方法的正确性,通过比较三种模型的正确率与稳定率的值,从中选出正确率与稳定率较高的一种分类模型,即Fisher判别模型,并用该方法把20个未标明类别的人工序列进行分类即可。
对于问题二,序列的长度发生了变化,与问题一类似,本文用问题一中选出的正确率与稳定率较高的分类模型对182个自然DNA序列进行分类即可。
三、模型假设
3.1 模型假设
较长的182个自然序列与已知类别的20个样本序列具有共同的特征。
认为所讨论的序列都是从DNA序列中任意截取的一部分.
所研究的这些DNA序列都是稳定的,至于在极少数情况下发生的DNA变异不予考虑
四、与符号说明
:表示题目给出的DNA的序列号
:分别表示第个DNA序列中的A、C、G、T碱基的出
文档评论(0)