基因组序列组装的理论与方法(简介).ppt

下载文档

5
0
约5.12千字
约 48页
2017-06-11 发布于北京
举报
版权申诉
保障服务

基因组序列组装的理论与方法(简介).ppt

1、本文档共48页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基因组序列组装--理论与方法北京大学生物信息中心科学院北京基因组研究所李松岗 lsg@pku.eud.cn 010两种测序策略分级鸟枪法(BAC TO BAC) 基因组DNA 切成大片段构建BAC文库挑选构建小片段shotgun文库测序组装BAC序列组装基因组序列全基因组鸟枪法基因组DNA 构建不同长度shotgun文库测序组装基因组序列基因组测序与组装示意图基于BAC方法的优缺点优点：组装被局限在BAC的范围内，受重复序列影响小，对计算能力要求不高；缺点：需要大量前期生物学研究工作，效率低，成本高。全基因组鸟枪法优缺点优点：不需要生物学前期准备，速度快，成本低；缺点：组装是在全基因组范围内进行，数据量大，易产生错拼；对计算机软硬件要求均高。对拼接软件的要求能充分利用正反向测序的配对信息, 避免重复序列造成的错误拼接能处理数以百万甚至千万计的数据程序并行化高效率比对能够采用全基因组鸟枪法的关键技术进步：毛细管测序仪的普遍使用计算机能力的迅速提高 Shotgun法序列拼接 RePS: 全基因组鸟枪法测序数据组装软件包 RePS2的新流程图识别重复序列的数学模型重复序列识别： n次抽样，其中i次以上深度在j以上的概率Pij 设一次抽样深度在j以上和以下的概率分别为：Pj－，Pj+； n次抽样，其中i次以上深度在j以上则认为是repeat，此时犯两类错误的概率为：设repeat在基因组中的比例为b，出现概率为P，非repeat出现概率为P* ，则： MDR (数学定义的重复序列) 与 BDR (生物定义的重复序列) Contigs:127,550 (N50=6,688 bp) 插入片段长度的搭配一般情况下，可采用如下设计： CAP3（1999）特点：删去read两端低质量部分；利用质量数据，识别重叠序列；进行多序列比对，得到一致序列；利用正反向数据纠正组装错误，构建scaffold。使用情况：仅使用数个BAC进行了测试。果蝇组装软件（2000）特点：组装前数据预处理；用数据库屏蔽重复序列；采用类似BLAST的方法找出重叠部分；选择不冲突的重叠构建contigs，识别重复序列边界；用正反向信息构建scaffolds，填洞。使用情况：用于果蝇基因组组装。用于人类基因组组装时的改进（2001）构建contigs后，利用一个统计模型识别低拷贝重复序列；采用两种方式利用已公布的人类基因组计划数据，即 1.把人类基因组计划数据分解成“人工reads”，进行组装； 2.利用人类基因组计划数据的定位对shotgun数据进行分组，然后组装。 ARACHNE（2002）特点：组装前通过多序列比对纠正测序错误；考虑质量数据，对每对重叠reads打分；通过分析reads重叠情况识别重复序列的边界，组装的contigs避免越过边界；识别重复序列contigs；构建scaffolds，填补空洞。使用情况：使用数个物种，包括人21、22染色体数据进行了检验。 The Phusion Assembler（2003）特点：输入数据包括正反向信息，插入片段长度在2-200kb之间；组装前先对数据进行分组，然后并行处理；使用phrap进行组装，组装过程中利用正反向信息对contig进行延伸或打断；根据重叠合并contigs；利用正反向信息构建scaffolds。使用情况：用于小鼠基因组，7.5x，2.6Gb，479 scaffolds 欧拉图方法（2001）特点：放弃传统方法，用图论解决序列组装问题；每个read作为一个顶点，两个reads之间有重叠则有边连接。组装问题就化为找一条仅通过每个顶点一次的通路——Hamilton问题。把重复序列视为粘在一起的边，可把上述图简化，问题变为找仅通过每条边一次的通路——Euler问题。具体步骤纠正测序错误把read分为长为 L 的字。如果一个字属于M个以上reads，称为坚固的；否则称为弱的。纠正错误的算法，就是要通过最少的改变，使弱的字变为坚固的。通过这种方法，纠正了97.7%的测序错误，把每个read的平均错误率从4.8降到了0.11。构建de Bruijn图顶点：长为L-1的字边：长为L的字，代表一条从前一个L-1字到后一个L-1字的有向边这样，就把测序数据转换成了de Bruijn图，组装问题变成了找Euler路径的问题。这一问题已有解法。使用情况：这一方法成功地用于一个多重复序列的细菌基因组。