(序列文件格式:fasta格式和Flatfile格式.docVIP

(序列文件格式:fasta格式和Flatfile格式.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1、序列文件格式:fasta 格式和 Flatfile 格式 数据库被用来存放原始数据,以及一系列附加的注释。不同的检索工具和程序利用了这些信息中的不同部分。纵观各种格式,我们可以发现其中应用了一些共同的规则,以使得多种情况下在不同格式之间生成和交换数据成为可能。最便于人阅读的格式对计算机程序来讲很可能并非是最有效率的(例如GenBank flatfile,这是一种人可以阅读的ASN.1版本)。这些记录还有二进代码版,更加紧凑,计算机处理也更快。但不幸的是,由于历史的原因,对一种固定格式的频繁使用使得引入另一种格式极为困难,尽管新的格式可能更加富含信息,更加准确,易于复制和计算,易于抽取信息,易于使用。GBFF的简单性,使我们都可以获得易用的工具,这也是EMBL和GBFF极大通用性的重要原因。 作为最简单的格式,一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。这里是一个以FASTA(或Pearson格式)文件表示的核苷酸序列数据: L04459 ******************* 或同样的,一个蛋白质记录: P31373 ******************* FASTA格式广泛应用于许多分子生物学软件包之中。作为最简单的情况(正如上面所显示的),大于号()表示一个新文件的开始。标记符??上面第一个例子开始部分的L04459??后面是大写或小写字母的DNA序列,通常60个字符一行(但这并非是标准规定)。如果需要的话,用户或数据库可以在这个简单格式的基础上增加复杂的结构化信息。例如,在不违反上面规定的前提下,可以在FASTA的说明行中加入更多的内容,使这个简单的格式包含更多的信息,就象下面这样: | ******************* 现在这个FASTA文件中包含了gi号码(见下面)、GenBank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。这个记录是从ASN.1记录生成的,而ASN.1是NCBI用来存储和维护所有数据的格式。(在计算机中这些数据保存为一行,如果打印出来,将比本书的页面宽出许多。所以,这里做了折行处理)。 在分子生物学的历史上曾经使用过许多格式,其中有些格式现在还在使用,同时也有许多工具用来在这些格式之间转换数据。NCBI的asn2ff程序可以将ASN.1文件转换为多种flatfile文件格式,它可以生成GenBank、EMBL、GenPept、Swiss-Prot以及FASTA格式的文件。这一程序包含在NCBI工具软件包之中。Don Gilbert的READSEQ是另一个广泛使用的工具,已包含在许多软件包中。在使用这些工具进行格式转换时,用户应当注意,有些GenBank或EMBL格式下的特性将被丢失。READSEQ只工作于序列自身,并不处理注释部分。那些只需要序列数据的程序最好使用FASTA格式的序列来进行查询。尽管FASTA格式的信息含量比其他格式少,但它提供了人和计算机都可理解的处理原始数据的简单方法。GenBank Flatfile格式 GenBank flatfile(GBFF)是GenBank数据库的基本信息单位,也是最广泛地用以表示生物序列的格式之一。在本书写作的时候,它也是从GenBank到DDBJ和EMBL数据库,以及EMBL、DDBJ之间或向其他数据库交换数据时所采用的格式。DDBJ flatfile格式与GBFF格式是相同的。EMBL格式则每行都带有前缀,以表明本行的信息类型。注释部分(见下面)前缀为“FT”,在内容上与其他数据库相同。所有这些格式实际上都是由更结构化的ASN.1生成的。但是主要由于历史的原因,许多用户(专家或非专家)在工作中使用GBFF(或EMBL flatfile格式) GBFF可以分成三个部分,头部包含关于整个记录的信息(描述符)。第二部分包含了注释这一记录的特性,第三部分是核苷酸序列自身。所有的核苷酸数据库记录(DDBJ/ EMBL/ GenBank)都在最后一行以 // 结尾。 头部 头部是记录中与数据库关联最大的部分。各个的数据库并不一定在这一部分包含相同的信息,而可能存在着微小的差别。但各数据库已作出努力以在彼此之间保证信息兼容。 所有的GenBank flatfile开始于LOCUS行: ********************* 这一行中的第一项是LOCUS名称。历史上曾用这个名称来表示本记录描述的基因座,提交者和数据库工作人员花费了无数的时间来设计这一名称。这一成分开始于一个英文字母,总长度不能超过10个字符。第二个字符以后可以是数字或字母,所有字符均要大写。LOCUS名称在以前是最为有用的,那时大多数DNA序列记录只表示一个基因座,这样在GenBank中寻找一个可以用少数几个字母和数

文档评论(0)

sVlEYrmpUd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档