DNA序列分类模型研究.pptx

下载文档 降价啦

4
0
约2.03千字
约 40页
2018-04-02 发布于重庆
举报
版权申诉
保障服务

DNA序列分类模型研究.pptx

1、本文档共40页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

DNA序列分类模型研究

DNA序列分类模型研究; 2000年6月人类基因组计划中DNA全序列草图完成, 2004年10月绘制了精确的全序列图,标志着生命科学“登月计划”又向前迈出一步,从此人类拥有了一部记录着自身生老病死及遗传进化全部信息的“天书” 。 DNA作为一种遗传物质,早已在50多年前就被发现。它是由4种碱基:腺嘌呤(A) 、胞嘧呤C) 、鸟嘌呤(G)及胸腺嘧呤(T)按一定顺序排成的长约30亿的序列。;; 虽然全序列图绘制成功，但这个几十亿的长序列中既没有断句,也没有标点符号，除了这4个字符表示4种碱基以外，人们对它包含的“内容”知之甚少，难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中，研究DNA全序列具有什么结构，由这4个字符排成的看似随机的序列中隐藏着什么规律，又是解读这部天书的基础，是生物信息学（Bioinformatics）最重要的课题之一。 ;但人们也发现了DNA序列中的一些规律性和结构。例如，在全序列中有一些是用于编码蛋白质的序列片段，即由这4个字符组成的64种不同的3字符串，其中大多数用于编码构成蛋白质的20种氨基酸。又例如，在不用于编码蛋白质的序列片段中，A和T的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外，利用统计的方法还发现序列的某些片段之间具有相关性，等等。这些发现让人们相信，DNA序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。;作为研究DNA序列结构的尝试,提出以下DNA序列的分类问题: (1)现有20个已知类别的人造DNA序列,其中第1～10序列为A类,第11～20序列为B类,现要求从中提取特征,构造分类方法,并用构造的方法对另外第21～40个未标明类别的人工序列进行分类,并写出结果。 (2)用构造的分类方法来给部分天然DNA序列进行分类,给出分类结果。;序列;方法1 基于字母出现频率的分类;方法一评价;方法二基于字母出现周期性;方法二基??字母出现周期性;　　可以把一串DNA序列看成一个信息流，关于A、B的分类，可以考虑其单位序列所含信息量（即熵）的多少。从直观上来看，我们可以认为重复得越多，信息量越少。;现在的问题就归结为如何找出一个合适的gm(l)，不妨设g具有以下性质：;以第m个字符结尾的i字串且以第t个字符结尾的i字串完全相同否则;定义为单位长度所带的信息量;方法三讨论;　　考虑采用序列中的A、G、T、C的含量百分比作为该序列的特征百分比分别记为na,ng,nt,nc则得到一组表征该序列特征的四维向量（na,ng,nt,nc），由相关性取三维向量（na,ng,nt）即可 ;A 欧氏距离(Euclid)分类模型;2、对于给定的样本点Xi，分别计算该点到CA,CB的的欧氏距离：;模型评价;B 氏距离（Mahalanobis)分类模型;C　Fisher准则分类模型;样品X到某一类G的距离定义为：;方法四三种分类模型的比较;对于任一个序列，当三种分类法结果完全一致时，认为它判别有效。对于任一个序列，当三种分类法结果不完全一致时，认为该序列为不可判类。;方法五基于碱基相关性的分类模型;定义一：相关运算;定义二：哑元;定义三：序列的延拓;定义四：序列的相关度;公理一：任意给定三个序列S、A、B，若A与S的相关度大于B与S的相关度，则A与S属同一类的可能性大于B与S属同一类的可能性。;基于相关度的分类算法;3、判别准则　　　若SA＞SB，则将S判定给A类　　　若SB＞SA，则将S判定给B类　　　若SA＝SB，则将S列为不可判类;方法五的改进带反馈的相关度分类算法;1、对全部未知样本进行相关度分类，计算出所有未知样本的W值; 2、在所有被判为A类的待分类序列中，取出W值最大的一个作为标准学习样本加入到A类的标准样本中； 3、在所有被判为B类的待分类序列中，取出W值最小的一个作为标准学习样本加入到B类的标准样本中； 4、重复对剩余的待分类序列进行相关度分类，并按上述步骤不断扩充标准学习样本，直至全部的待分类序列都被加入到标准学习样本中。 ;六其它一些研究方法;生物信息学的发展趋势;谢谢！;在生物信息学中, 许多研究就是对新算法的需求,“算法是core 、算法是key 、算法是soul”。生物信息学对我们提出了很多富有魅力的话题, 比如DNA 序列拼接、比对,蛋白质折叠,疾病基因发现,药物作用靶点预测等等。有些问题甚至是NP 性质的,这些问题到现在还是没