2第二章生物信息数据库:2序列注释格式1课件.ppt

2第二章生物信息数据库:2序列注释格式1课件.ppt

  1. 1、本文档共109页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分子数据库结构 曹毅 GenBank数据库结构 作用:了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性。 DDBJ数据库的内容和格式与GenBank相同,此处不作详细介绍。 分别介绍EMBL和GenBank的数据库结构 GenBank数据库数据注释 (/genbank/ ) GenBank库包含所有已知的核酸序列和蛋白质序列, 以及与它们相关的文献著作和生物学注释。 NCBI可提供广泛的数据查询、序列相似性有哪些信誉好的足球投注网站以及其它分析服务。 数据库 序列文件:注释内容——文章 索引文件:检索目录——文摘 GenBank数据库结构 完整的 GenBank数据库包括序列文件,索引文件以及其它有关文件。 索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。 GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库 数据格式为FastA。 GenBank数据记录 GenBank数据记录 GenBank数据库结构 GenBank中最常用的是序列文件。 序列文件的基本单位:是序列条目,包括核苷酸碱基排列顺序和注释两部分。 生物信息资源中心通过计算机网络提供该数据库文件。 注释条目:文章的格式 GenBank数据库结构 GenBank序列文件由单个的序列条目组成。 序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。 字段分若干次子字段,以次关键字或特性表说明符开始。 每个序列条目以双斜杠“//”作结束标记 GenBank数据库结构 序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。 每个字段可占一行,也可以占若干行。 若一行中写不下时,继续行以空格开始 GenBank数据库 物种:GenBank 库里的数据按来源于大约100,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列) 记录:每条GenBank数据记录包含对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,及序列本身 GenBank数据库 序列特征表:包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等 分类:所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被分成若干文件 注释内容 序列条目关键字: LOCUS (代码), DEFINITION (说明), ACCESSION(编号), NID符(核酸标识), KEYWORDS (关键词), SOURCE (数据来源), REFERENCE (文献), FEATURES (特性表), BASE COUNT (碱基组成) ORIGIN (碱基排列顺序)。 先版的核酸序列数据库将引入新的关键词SV (序列版本号),用“编号.版本号”表示,并取代关键词NID LOCUS LOCUS (代码):是该序列条目的标记,或者说标识符, 蕴涵这个序列的功能:如HUMCYCLOX表示人的环氧化酶。 序列长度 类型 种属来源以 录入日期等 说明字段是有关这一序列的简单描述 ACCESSION ACCESSION (编号):具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。 KEYWORDS KEYWORDS (关键词)字段:由该序列的提交者提供,包括 该序列的基因产物 其它相关信息 SOURCE SOURCE (数据来源)字段:说明该序列是从什么生物体、什么组织得到的 次关键字ORGANISM (种属):指出该生物体的分类学地位 REFERENCE REFERENCE(文献)字段:说明该序列中的相关文献,包括 AUTHORS (作者), TITLE (题目)及 JOURNAL(杂志名)等, 以次关键词列出。 MEDLINE的代码:该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。 一个序列可有多篇文献,以不同序号表示,并给出该序列中哪一部分与文献有关。 FEATURES FEATURES (特性表):具有特定的格式,用来详细描述序列特性。 特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库,如分类数据库(taxon 9606), 以及蛋白质序列数据库(PID:g181254)。 序列中各部分的位置都在表中标明,5’非编码区,编码区,3’非编码区,多聚腺苷酸重复区域等。 翻译所得信号肽以及最终蛋白质产物 碱基含量字段,给出序列中的碱组成 ORIGIN ORIGIN行是序列的引导行 下面便是碱基序列 以双斜杠行“//”结束。 GenBank数据库—数据库格式 FASTA格式 gi|1293613|gb|U49845.1|SCU49845 Saccharomyces

文档评论(0)

叮当文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档