真核基因组注释流程.pdf

下载文档

366
0
约1.06万字
约 6页
2017-05-26 发布于河南
举报
版权申诉
保障服务

真核基因组注释流程.pdf

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

真核基因组注释流程

真核基因组注释入门指南 doi:10.1038/nrg3174 Mark Yandell 和 Daniel Ence Department of Human Genetics, Eccles Institute of Human Genetics, School of Medicine, University of Utah, Salt Lake City, Utah 84112-5330, USA. Correspondence to M.Y. e-mail: myandell@ 摘要：基因组测序价格的下降给考虑进行基因组测定和注释的研究团体带来了显著的影响。基因组注释项目普遍变成由单个实验室实施的小规模事件。尽管注释一个真核基因组已经可由非专业人士完成，但仍较难。本文综述了基因组注释的概貌、相关软体并描述了一些最适用的方法。引言：测序费用下降如此快以致单个实验室也能支付人类基因组的测定。尽管测序变得容易了，许多因素却使基因组注释却变得更难：首先，第二代测序平台的更短的原始读长意味着现在基因组组装很少获得接近果蝇和人类基因组那样用经典 shotgun 组装的结果。第二，许多近来测定的基因组具有的独特性也带来了挑战，尤其是对基因的发掘。不同于第一代基因组项目依赖于大量已知的基因模型，今天的基因组常常缺乏前期研究。这导致难于训练、优化和设定基因预测等注释工具的参数。第三个新挑战来自对升级和融合注释数据的需求。RNA 水平数据(RNA-seq)为升级陈旧的注释数据集提供了显而易见的途径。而且，这一工作十分重要。然而，也不能直接保证可以改进原始的注释结果。另外，今天常常有多个团队用不同的注释过程去注释同一个基因组，众多信息整合获得一致注释是一个相对复杂的任务。最后一点，基因组注释项目的团队大小发生了变化。不像以往，今天的基因组注释项目常是更小规模团队完成，相关研究者常缺乏生物信息学和计算生物学的专业知识。真核基因组注释不是一个简单的过程，需要一些基本的 UNIX 技能。但利用现在的工具软体，自己动手进行基因组项目注释十分可行。本文综述了基因组注释的概貌、相关工具并描述了一些最适用的方法。概述：组装和注释组装成功注释任何基因组的第一步是决定组装是否已经达到要求。许多总结性统计用来描述基因组组装的完整性和连续性。最重要的是 N50 。其他的统计参数有scaffold 的平均gap 大小和数目。大多数现有基因组是 “标准的草图”组装，这意味着它们达到了递交至公共数据库的最低标准。然而，“高质量草图”组装是注释的更高目标，至少达到 90%的完整性。尽管没有绝对的标准，但是对注释而言，scaffold N50 长度达到基因平均长度是一个合理的目标。原因十分简单：此时，基因中约有 50%有望包括在单个 scaffold；这些完整的基因与其它片段一同提供下游分析的素材。如图 1 所示，平均基因长度与基因组大小存在粗略的对应关系。因此，如果基因组大小已知，就可以粗略的获得基因大小从而获得注释所需的最小scaffold N50。CEGMA 提供了估算组装的完整性和连续性的另外一种补充方式，该方式依靠所收集的真核单拷贝基因并确定每一个基因存在于单个 scaffold 中的百分比来检测组装效果。获得高质量组装草图是大多数基因组项目都可以完成的目标。如果组装不完全或者 scaffold 的N50 长度过短，我们建议补充进行 shotgun 测序。注释尽管基因组注释流程存在细节上的差异，它们的核心都是一致的。一般，基因组水平的基因结构注释分为两个明显的阶段。第一阶段，即计算阶段，表达序列标签（ESTs ）、蛋白质等与基因组进行比对，从头预测或者依靠已知的知识进行基因预测。第二阶段，即注释阶段，已有的数据被集成进基因注释。因为这一过程十分复杂且涉及许多工具——组装计算所得（已知知识和证据）并使用数据生成基因组注释——一般意义上称之为注释流程。尽管 Ensembl 也对 non-coding RNAs (ncRNAs)进行注释，现在的流程主要面向蛋白编码基因的注释。