如何理解PacBio的准确度.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
如何理解PacBio的准确度

Understanding Accuracy in SMRT Sequencing介绍 第三代测序中的PacBio单分子实时(Single Molecule Real-Time, SMRT)DNA测序可以实现超过99.999%(QV50)的高度精确测序,且不受DNA序列中GC和AT含量的影响,平均读长可达10-15kb(最长40kb),这是如何实现的呢?这是因为SMRT技术在与DNA测序精确度相关的三个方面均有独到之处:1. Consensus accuracy(一致性准确性) 2. Sequence context bias(测序偏好性) 3. Mappability of sequence reads(测序reads的map表现)本文将从专业客观的角度从这三方面详细阐述SMRT测序技术的表现,图文并茂,数据详实,请各位看官留步,细细品味。1. Consensus accuracy(一致性准确性)一个典型的测序过程通常包括三个基本步骤:(i)生成测序reads,(ii)将生成的reads mapping到已知的参考序列上,(iii)为了得到最终的序列而生成consensus。如果DNA样本是未知起源的,那么第(ii)步就会被de novo基因组组装所代替,以便生成一个新的参考基因组。最后一步是将原始测序reads mapping到assembly结果。 为了使大家更好的理解SMRT测序技术是怎样达到准确度99.999%的,图1我们先来review一下在second-generation sequencing系统中,测序结果是怎样得到的。在这个例子中,一条120bp的read被mapping到参考基因组上,红色箭头表示与参考基因组不一致的碱基。但是我们不能单凭这一条read的mapping结果就给出生物学结论,因为我们不知道这种不一致究竟来自于真正的生物学变异还是仅仅是由于测序错误导致的。同样,单凭一条read也无法call出heterozygous SNPs,因为在这种变异里,我们至少需要来自父方和母方染色体的各一条read。因此,要想获得真实准确的生物学发现,必须通过将多条reads进行averaging,然后与参考基因组的相同区域进行map,换句话说,需要进行building consensus。在这个例子中,来自于10条reads的average序列信息(相当于10×;被用于判断与参考位置究竟是match,还是homozygous SNPs,亦或是heterozygous SNPs。那么,同样的策略其实也被用于SMRT测序技术中(见图2)。 SMRT测序可以产生更长的reads(平均读长可达10-15kb,最长40kb),但是为了与图1一致,便于理解,我们在图2还是只看120bp的长度。虽然在SMRT技术中,single-pass reads更容易出错(平均错误率11%),这些错误主要由于deletions(水平红线)和insertions(垂直红线)引起。考虑到SMRT-sequencing reads的这些特征,Pacific Biosciences公司开发了名为BLASR1的mapping工具,专门为mapping SMRT-sequencing reads进行了优化。尽管单次读取(single-pass)的错误率稍高,但是使用BLASR还是可以准确的将SMRT-sequencing reads mapping到参考序列的相应位置。因此,正如图1中二代测序的例子一样,无论哪种采用技术,没有人会关注一个碱基只被测一次的结果,最终结果都是经过consensus分析之后得到的,比如,当做到10X;时候,每个位置的序列信息就是由10次读取之后产生的平均结果而定(如图中垂直的框)。所以,对于PacBio三代测序来说,针对每一个碱基,10次读取中有9次都是正确的,足够让我们判断出该位置的正确信息。根据SMRT-sequencing reads的这一特点,PacBio公司也开发了一个名为Quiver的consensus工具,可以生成高质量的consensus序列 然而,如果测序方法本身存在系统错误,无论consensus之后的序列是不是正确,测序结果都将会受到影响。也就是说,如果某个碱基被系统地读错,那么在consensus之后它也仍然是错的,且这一错误是无法通过增加coverage克服的。而SMRT测序技术的consensus准确率之所以能够99.999%,最关键的一点就是由于single-pass的错误是随机错误,这意味着随着coverage的增加,这种随机错误可以很快被消减掉。这点已经有多篇publications进行了理论及实践验证2,3。图3说明了SMRT测序的准确度与coverage之间的关系,星号代表与refer

文档评论(0)

dashewan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档