序列分析 - 东南大学生物电子学国家重点实验室.DOCVIP

序列分析 - 东南大学生物电子学国家重点实验室.DOC

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
序列分析 - 东南大学生物电子学国家重点实验室

第四节 DNA片段组装 DNA分子的序列是通过核酸测序技术得到的。对于完整基因组自上而下的测序过程一般包括三个步骤:(1)建立克隆的物理图谱,如酵母人工染色体YAC(Yeast Artificial Chromosome)克隆、细菌人工染色体BAC(Bacterial Artificial Chromosome)克隆等;(2)利用鸟枪法(Shotgun Strategy)测定每个克隆的序列;(3)注释。当得到一段DNA序列之后,可以利用序列分析工具,通过与数据库序列的比较,得到与该序列相关的信息,如基因、调控元件、重复区域等,进而对序列的生物学特性进行注释。人类基因组计划(HGP)采用的就是这种策略。Venter提出的战略构想(Venter ET AL.,1998)正好与目前的人类基因组计划相反,即首先是测序,然后才是在测序的基础上作图。Venter把这种战略称为“全基因组随机测序”也称为“全基因组鸟枪战略”(whole genome shotgun strategy)。 在大规模DNA测序中,目标DNA分子的长度可达上百万个bp。现在还不能直接测定整个分子的序列,然而可以得到待测序列的一系列序列片段,这些序列片段覆盖待测序列,并且序列片段之间也存在着相互覆盖或者重叠。序列片段是DNA双螺旋中的一条链的子序列(或子串)。在一般情况下,对于一个特定的片段,我们不知道它是属于正向链还是属于反向链,也不知道该片段相对于起点的位置。另外,这样的序列片段中还可能隐含错误的信息。序列片段的长度范围300—1000 bp,而目标序列的长度范围是30000—1000000 bp,总的片段数目可达上千个。DNA序列片段组装(sequence assembly,又称序列拼接)的任务就是根据这些序列片段,重建目标DNA序列。如果能够得到DNA一条链的序列,那么根据互补原则,另一条链的序列也就得到了。本章讨论DNA片段组装的基本问题,详见有关参考文献(Setubal and Meidanis, 1997)。 1、片段组装问题 序列片段组装的定义如下:给定一组取自特定字母表的字符串集合S,寻找一个最短的字符串s,使得S中的每一个字符串都是s的一个连续子串。这里,集合S的字符串相当于待组装的序列片段,而s则是序列片段组装的结果。 假设有下列4个DNA序列片段ACCGT、CGTGC、TTAC和TACCGT,并且已知目标序列的长度约为10,如图3.21(a)所示。可以按图3.21(b)所示的方式组装这4个片段。 将输入的序列片段进行两两比对,但是这里序列比对的目标与基本的两两比对算法有所不同,现在的目标是寻找一个序列的尾端(后缀)与另一个序列的前端(前缀)相同(或者非常相似)的部分。这实际上是一种局部序列比对,即将一个序列的后缀与另一个序列的前缀进行对比,忽略两端的空白字符。指导片段组装的因素就是片段之间的覆盖。所谓片段之间的覆盖是指一个片段的末端与另一个片段的前端相同(或相似)的部分。通过各个片段之间的覆盖,可以将所有片段连接起来。这实际上相当于将每个片段进行相对定位,得到各片段的布局,逐步确定目标序列。这也可以看成是序列片段的多重比对。图3.21(b)横线下面的是组装的目标序列,也就是序列组装的结果。对于每一列取出现频率最大的一个字符。 上面的例子是一种理想的情况,而实际上,组装问题非常复杂。除了序列片段很长之外,还有4个主要问题。第一个问题是碱基标识错误,如在序列片段中出现的碱基替换、插入和删除。在图3-22中,待组装的片段有4个,而与上面的例子相比较,在第4个片段上有一个A到G的替换。在实际中,测序碱基标识错误发生的频率大约为1%,发生在3’端的可能性比较大。从图3.22中的例子看出,在一定程度上可以对有标识错误的片段进行组装,但是计算机必须能够处理这些错误,应具有容错功能,在进行子串比较时不一定要求完全匹配,而只要子串达到一定的相似度即可。如果考虑到序列的检测误差,序列片段组装的一个更准确的定义为:给定一组取自特定字母表的字符串集合S,其中的字符串的每个字符具有一定的误差,寻找一个字符串s,使得在s中观察到S的可能性最大。 除了碱基标识错误,还有其它一些类型的错误,如两个不同区域中的片段连接成一个更长的片段,又如实验过程中引入的与目标序列不相关的片段。序列片段组装算法应能够处理这些错误。 序列组装的第二个问题是不知道片段的方向。一个片段可能来自于目标DNA的某一条链,但是我们不知道它究竟来自于哪一条链。如果一个片段是一条链的子串(子序列),那么根据互补原则,该片段的反向互补片段是另一条链的子串。于是,对于一条输入的片段,在进行组装时,既可以用其本身,也可以用其反向互补片段,如图3.23所示。在进行片段组装时,应能够选择正确方向上的片段。 第三个问

文档评论(0)

2105194781 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档