- 1、本文档共179页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章生物信息数据库3
第二章 生物信息数据库 第一节 生物信息数据库的基础 一、生物信息数据库的类型 二、序列数据库 三、结构数据库 四、数据库的查询与有哪些信誉好的足球投注网站 五、向数据库提交数据 第一节 生物信息数据库的基础 《Nucleic Acids Research》杂志在其每年的第一期中详细介绍必威体育精装版版本的各种数据库。 在2008年1月出版的36卷第一期中公布生物学数据库总数已达1078个。在DNA序列方面有GenBank、EMBL和DDBJ等。在蛋白质一级结构方面有SWISS-PROT、PIR等。在蛋白质和其它生物大分子的结构方面有PDB等。在蛋白质结构分类方面有SCOP和CATH等。 / 二、序列数据库 序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨氨基酸残基顺序为基本内容,并附有注释信息。注释信息包括两部分,一部分由计算机程序经过序列分析由计算机程序生成,另一部分则依靠生物学家通过查阅文献资料而获得。 随着基因组大规模测序计划的迅速开展,序列数据库特别是核酸序列数据库的数据量迅速增长,数据来源主要集中于国际上几大著名的测序中心,如位于英国剑桥南郊基因组园区的Sanger Centre,华盛顿大学基因组研究中心等。 (一)核酸序列数据库 美国国立生物技术信息中心(NCBI)的GenBank /Genbank/index.html 欧洲生物信息研究所(EBI)的EMBL http://www.embl-heidelberg.de/ http://www.ebi.ac.uk/ 日本国立遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/ 1988年,EMBL、GenBank 与DDBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。根据协议,这三个数据中心各自搜集世界各国有关实验室和测序机构所发布的序列数据,并通过计算机网络每天都将新发现或更新过的数据进行交换,以保证这三个数据库序列信息的完整性。 1、GenBank 的数据类型及来源 数据类型:它收录包括任意长度的cDNA片段、单个的外显子、完整的c DNA、任意的基因片段以至于包含多个基因的长片段。 数据来源: 个人或大规模测序中心直接递交的数据 收集注册专利的序列信息 对生物期刊进行检索,以收集公开发表的序列 2、GenBank数据库结构 截止到2007年9月,GenBank数据库已收录了约260000个不同物种的数据,并正在以1700个物种/月的速度递增,其中12%是人类的基因组序列,所有序列中的8%是人类的EST序列。 第二节 NCBI数据库 3、GenBank数据库格式 每条GenBank数据记录包含对序列的简要描述、它的科学命名、物种分类名称、参考文献、序列特征表以及序列本身。序列特征表里包含对序列生物学特征注释,如编码区、转录单元、重复区域、突变位点或修饰位点等。 从1986年起,GenBank、EMBL和DDBJ共同努力,形成了今天的GenBank格式。 DDBJ数据库的内容和格式与GenBank相同,与EMBL稍有差别。 单个序列 3.2 GBFF (GenBank flatfile, GenBank平面文件)格式 GBFF是GenBank数据库的基本信息单位,是最广泛地用于表示生物序列的格式之一,也是DDBJ/EMBL/GenBank三大数据库交换数据时采用的格式。 GenBank汇集并注释了所有公开的核酸以及蛋白质序列,每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段或蛋白质序列。 数据库的每一个条目是一份纯文本文件,每行左端为识别标志,识别字均为完整英文字。 DE(DEFINITION ) 该行主要对GenBank记录中所含的生物学意义做出总结。 内容包括来源物种、基因/蛋白质名称。 给出属或种的全名,而不使用通用名或属名缩写。 KW(KEYWORDS ) 关键词行用来描述序列的,如果该行中没有任何内容,那么就只包含一个“.”。 NCBI/GenBank拒绝接收关键词,它只存在旧的记录中。 OC(SOURCE ) 表示序列来源的生物的名称,生物的通用名或科学名称。 第二部分:特征表 它描述基因和基因的产物以及与序列相关的生物学特性。 特征表格式是按表单的方式设计的,包含3个主要部分: 1、特性关键词(feature key),是一个简要说明功能组的关键词; 2、特性位置(location),指明在特性表中的什么地方找到相关特性,在位置特性中可以包含操作符(operator)和功能性描述符(descriptor)以指明序列需经过怎样的处理才能得到相应的特性; 3、限定词(qualifier),相关特性的辅助信息,限定词使用一组标准化的对照
您可能关注的文档
- 第06章--Servlet核心技术.ppt
- 第06章_页面设置word.ppt
- 第二章地理数据的类型.ppt
- 第07章 分配理论.ppt
- 第二章人为失误与预防.pptx
- 第07章 交通方式分担.ppt
- 第06章 光与影的艺术_0823.pptx
- 第二章体质健康测试指标与结构 Microsoft PowerPoint 演示文稿.ppt
- 第07章 不完全竞争市场.ppt
- 第二章成形车刀.ppt
- DeepSeek培训课件入门宝典:第2册 开发实战篇 .pptx
- 全面认识全过程人民民主-2024春形势与政策课件.pptx
- 2024春形势与政策-全面认识全过程人民民主.pptx
- 2025年春季学期形势与政策第二讲-中国经济行稳致远讲稿.docx
- 2024春形势与政策-铸牢中华民族共同体意识课件.pdf
- 2024春形势与政策-走好新时代科技自立自强之路课件 (2).pptx
- 2024春形势与政策-走好新时代科技自立自强之路课件.pptx
- 形势与政策学习指导教学-整套课件.pdf
- 2023年春季形势与政策讲稿第三讲-开创高质量发展新局面.pdf
- DeepSeek培训课件-清华大学-DeepSeek模型本地部署与应用构建.pptx
文档评论(0)