网站大量收购闲置独家精品文档,联系QQ:2885784924

NCBI简介及序列编号说明.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一:NCBI简介 NCBI的GenBank与DDBJ(DNA Data Bank of Japan)、EMBL的EBI数据库共同组成国际DNA数据库,每日都交换更新数据和信息,并主持两个国际年会-国际DNA数据库咨询会议和国际DNA数据库协作会议,互相交换信息,因此三个库的数据实际上是相同的。 GenBank 有来自于70,000多种生物的核苷酸序列。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。(是美国国家生物技术信息中心(National Center for Biotechnology Information ,NCBI)建立的DNA序列数据库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计划( Benson等, 1998)。Entrez 是美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。 Entrez 是由NCBI主持的一个数据库检索系统。它包括核酸,蛋白以及Medline文摘数据库,在这三个数据库中建立了非常完善的联系。因此,可以从一个DNA序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。) DDBJ主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,亦接受其他国家呈递的序列。 EBI的主要任务:⑴为科学界建立和维护生物学数据库,提供免费的数据和生物信息服务,支持生物学数据的存储和挖掘,促进科技进步;⑵通过生物信息学的基础研究继续推动生物学发展;⑶为各个层次的科学工作者提供生物信息学培训;⑷支持帮助边缘尖端科技成果向工业界的转化;⑸协调欧洲生物数据的提供。 RefSeq是NCBI数据库的参考序列。RefSeq资料库是NCBI将GenBank的序列再做详细整理的non-redundent序列资料库,它的序列格式和GenBank几乎完全相同,但因为是完全不同的独立资料库,为与GenBank区别,RefSeq的Accession Number格式和GenBank不同。 二:常用序列编号 一般来说,mRNA和基因组序列是我们主要的寻找对象。如果想找标准序列的话,mRNA用NM_开头的,基因组用NC_或者AC_开头的。 1. mRNA NM_表示标准序列, 为转录产物序列;成熟mRNA转录本序列。 XM_表示预测的蛋白编码序列;mRNA来自基因组注释,序列相当于基因组重叠群。大多数属于预测的。 NR_表示非编码的转录子序列,包括结构RNAs,假基因转子等。 2. 基因组 NC_完整的基因组分子序列,标记的类别包括基因组、染色体、细胞器、质粒。 AC_一些可供选择的注释的基因组序列,主要用来标记病毒和原核生物。 三:ACCESSION编号 ACCESSION是NCBI序列数据中我们常用到编号(另一个是GI)。ACCESSION形式为CC_#####,其中CC为两个字母,其不同组合又可以区分为蛋白序列、核酸序列或基因组序列,而#为位数不等的数字;ACCESSION后面又会加版本号,以CC_####.#形式表示,最后的尾数递增表示序列信息较之前的版本有所修改。这样ACCESSION+版本号就是一个唯一的表示,代表一个唯一的序列,而且这个编号不会改变。 1)AC_***:genomic mixed,一些可供选择的注释的基因组序列,主要用来标记病毒和原核生物; 2)AP_***:protein mixed,AC_标记序列对应的蛋白产物; 3)NC_***:genomic mixed,完整的基因组分子序列,标记的类别包括基因组、染色体、细胞器、质粒; 4)NG_***:genomic mixed,不完整的基因组区域,提供NCBI基因组注释途径。比较有代表性有不转录的假基因或者哪些很难自行化注释的基因组簇; 5)NM_***:mRNA mixed,转录组产物序列;成熟mRNA转录本序列; 6)NP_***:protein mixed,蛋白产物;主要是全长转录氨基酸序列,但也有一些只有部分蛋白质的部分氨基酸序列; 7)NR_***:RNA mixed,非编码的转录子序列,包括结构RNAs,假基因转子等; 8)NT_***:genomic automated,BAC或者鸟枪测序法的还未完全注释的测序序列; 9)NW_***:genomic automated,BAC或者鸟枪法测序的还未完全注释的测序序列; 10)NZ_ABCD1234***:genomic automated,收集的各种利用鸟枪法测序的测序计划,ABCD代表的是计划名称; 11)XM_***:mRNA automated,转录产物;mRNA来自基因

文档评论(0)

我思故我在 + 关注
实名认证
内容提供者

部分用户下载打不开,可能是因为word版本过低,用wps打开,然后另存为一个新的,就可以用word打开了

1亿VIP精品文档

相关文档