- 1、本文档共48页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于模糊聚类及BP神经网络的DNA序列分类
基于模糊聚类及BP神经网络的
DNA序列分类
摘要
本文关键词DNA序列分类 碱基氨基酸模糊聚类 BP神经网络
一问题重述
2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,这4个字符表示4种碱基。破译这部世界上最巨量信息的“天书”研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,是生物信息学(Bioinformatics)最重要的课题之一。
人类发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
需完成的工作是
从题中所给的已知类别的人工制造序列(序列标号1—10 为A类,11-20为B类)中提取特征,构造分类方法,并用这些已知类别的序列衡量本文所采用的方法是否足够好。
选取最适宜的方法对另外20个未标明类别的人工序列(标号21-40)进行分类。要详细描述所采用的方法,给出计算程序,并准确注明所使用的现成的分类方法的名称。
用本文所采用的方法对数据文件Nat-model-data 中给出的182个较长的自然DNA序列进行分类,给出分类结果。
问题分析
背景知识
转录:以DNA双链中的一条为模板合成mRNA的过程。
(2)翻译:mRNA中的碱基序列翻译为蛋白质的氨基酸序列的过程。
(3)密码子:mRNA链上决定一个氨基酸的相邻的三个碱基叫做一个“密码子”。共有64种密码子,其中有61种能合成氨基酸的密码子(包括起始密码子)及3个终止密码子,由它们决定多肽链的氨基酸种类和排列顺序的特异性以及翻译的起始和终止。mRNA翻译起始时的第一个密码子。() 由61种能合成氨基酸的密码子能够合成20中氨基酸。
()DNA,mRNA,密码子及氨基酸的关系:
密码子与氨基酸对照表1.
表1. 密码子与氨基酸对照表
问题的分析
要构造对题中所给的1-20条人工制造序列的分类方法,就要首先确定从序列中提取何种特征来进行分类。
而特征需要满足以下两个条件:
可以标志A组和B组
有一定的生物学意义
其中,第二个条件可以看做是在分类正确率达到要求后,对分类方法是否有实用性的一种衡量标准。题中已分类序列(第1-20组)分析,
图1 碱基含量分布表
发现在不同段的DNA中,每个碱基出现的概率不同,所以考虑将碱基作为序列的特征。又因为有科学研究结果表明:在不用于编码蛋白质的序列片断中,A 和T 的含量特别多些, 因此,以碱基含量作为特征去研究DNA 序列的分类是具有一定的生物学意义的而这种只考虑了碱基含量的方法并没有考虑到碱基排列顺序上的不同而造成产生的氨基酸不同。如表1,序列(UCA) 与序列(CUA )有着相同的碱基含量,却因排列顺序的不同而可以分别转录成丝氨酸及亮氨酸这两种不同的氨基酸。因此,以氨基酸含量作为序列的特征更具有生物学上的意义。由于题中所给DNA序列并未说明是全部的还是只截取了DNA链的某部分,因此无法确定将mRNA翻译成氨基酸的起始点,所以将所给序列的碱基依次作为密码子的起始点更为合理,如对给定序列aggcacgg,密码子依次为agg,ggc,gca…。
确定了序列的特征,就可以建立分别以碱基含量和氨基酸含量为数据源的分类模型。下面要分类方法选择。由于对DNA序列分类后在生物学上具有一定的意义,也就是分类后的两部分DNA序列不同的生物学功能,而功能的体现程度可能会不同,因此考虑采用模糊聚类方法。又因为对DNA序列的分类与诸多生物学因素有关,是复杂且不确定的非线性系统,考虑用神经网络来解决。而目前, 在神经网络中应用最多的是BP网络,所以采用BP神经网络方法对DNA序列进行分类。未标明类别的第21-40组DNA序列以及第二问中的182组自然DNA序列进行分类。
工作流程图
图1. 工作流程图
三基本假设
1. 转录及翻译过程中不发生基因突变,碱基缺失错位等情况。
2. ,uag,uga这三种密码子为终止密码子,即不能
文档评论(0)