- 1、本文档共43页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据库格式
不同数据库的序列格式 在运行序列分析软件中遇到的首要问题就是如何通过不同的程序使用不同的序列格式。这些格式都是标准ASCII码文件,但在显示各种信息或序列本身的某些字符或字有所不同。下面将讨论几种常用的序列格式。 1. GenBank中DNA序列格式 GenBank中数据库(包括NCBI核酸和蛋白质序列数据库)中条目格式如下:给出描述每一个序列的信息,包括文献参考、序列的功能信息、mRNA和编码区域的位置,以及重要突变的位置。这些序列信息以字段的形式进行组织,每一行最前端都有一个标识符。在某些条目中,标识符可能缩写成两个字母(例如RF代表reference),某些字段可能还有次级字段。计算机程序中的序列条目位于标识符“ORIGIN”和“//”之间。这些字段提供的信息可以参见网页/Sitemap/samplerecord.html 序列每行前面标有数字,以显示片断位置。序列计数或序列校检求和的值可被计算机程序用来鉴定序列成分,所以除非程序本身也改变计数,序列计数是不能被改变的。 GenBank序列格式通常需要改变以适应序列分析软件。 2 EMBL序列格式 The European Molecular Biology Laboratory(EMBL)序列条目与GenBank类似,通过大量信息来描述每个序列。该信息组织成一个个字段,每个字段有一个标识符。这些标识符缩写成两个字母,某些字段还有次级字段。每行序列后面的数字显示片断的位置。 计算机程序可以利用序列计数或校检求和的值来保证序列的完整性和精确性。正是由于这个原因,除非程序本身也改变计数,条目的序列片断是不能被改变的。 这种序列格式用于各种序列分析软件时也要进行改变。 3 SwissProt序列格式4 FASTA序列格式5 NBRF序列格式 SwissProt蛋白序列数据库条目的格式和EMBL非常相似,但它提供了更多的关于蛋白质的物理和生化性质的信息。 FASTA 序列格式包括三个部分:1.在注释行的第一列用字符“”标识,后面是序列的名字和来源;2.标准的单字符标记的序列;3.可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。FASTA格式是序列分析软件最常用的格式。这种格式提供了从一个窗口到另一个窗口非常方便的拷贝途径,因为序列中没有数字或其他非字符。FASTA序列格式和蛋白质信息资源NBRF格式很相似。 NBRF序列格式(或称PIR格式)已经被用于the National Biomedical Research Foundation/Protein Information Resource(NBRF)。网站()中的PIR数据库中得到并不是这种紧缩格式,而是一种包括很多信息的扩展格式。Fig 2.10显示了PIR序列格式的一个例子。第一行包括一个起始的“”字符,接着是一个双字符编码,例如P表示完整序列,F表示片断,后面的1或2显示了序列的类型,接着是一个分号,接着是一个4到6个字符的条目名称。第二行则显示了序列的全称,连字号,接着序列来源。 6 Intelligenetics序列格式 Intelligenetics格式由Stanford大学的一个分子遗传学研究小组发起,后来由Intelligenetics公司继承发展。IG格式和PIR格式很相似,不同的是将分号置于注释行之前。第二行也有个标识符。在序列的结束以1表示序列是线状,以2结束表示序列是环状。 7 GCG序列格式 早期版本的Genetics Computer Group(GCG)程序需要一个独特的序列格式,它能将其他的序列格式转换为GCG格式。后来的GCG版本接受了几种序列格式。 一种转换了的GenBank文件见Fig 2.12。首先包括了在GenBank序列条目中的信息,接着是一行序列信息及校准求和值。这个值(未显示)是通过累加序列的ASCII值来检测序列的精确度。如果序列没有改变,这个值就保持相同。如果由于某种错误,一个或更多的序列字符发生了改变,因为序列条目校检求和的数值出错,程序在读取序列的过程中将判定发生了变化。 序列信息行以两个句点结束。接下来就是序列。注意到,序列行开头的数字。既然没有标记显示序列的结束,所以在其后不能加任何信息。这一序列不能改变,除非程序运行过程中能调整序列校检求和的数值。 GCG序列格式在其他序列分析软件中必须改变。GCG也包含了改变序列文件格式的程序。 8 PIR/CODATA序列格式9 Plain/ASCII.Staden序列格式 来自the National Biomedical Research Foundation/ Protein Information Resource的序列文件格式几乎拥有和GenBank或EMB
文档评论(0)