生物分子数据库分解.doc

下载文档 降价啦

20
0
约1.72万字
约 23页
2017-02-12 发布于湖北
举报
版权申诉
保障服务

生物分子数据库分解.doc

1、本文档共23页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1995年，流感嗜血杆菌的基因组DNA信息被破解，它具有1738个ORF，其中包含1473个具有重要功能的基因。人类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱；随后在1996年，酵母基因组DNA全部的6500个基因被测序出来，这是第一个完成测序的真核生物完整基因组；从1980年代中期开始的线虫基因组测序工作，于1998年完成，这是人类获得了第一个多细胞生物的基因组，了解到它含有19100个基因，并发现其中的1/3基因与哺乳动物的相似；2000年，果蝇的基因组信息被破解，它有13600个基因。通过基因序列比对，发现289个与人类疾病有关的基因中的60%在果蝇中找到了相近的匹配序列。这意味着果蝇将是一种很好的研究人类疾病的模式生物；2000年，拟南芥的基因组DNA被测序出来，它有1.16亿个碱基对，编码大约26000个基因。2002年，由中国科学家主持并完成了水稻基因组测序任务，研究结果表明水稻基因组仅有约4.4亿碱基对，编码32000个基因。启动于1990年的人类基因组计划，到2003年其99.9%的人类基因组序列都被精确地绘图。在获得了如此多的核酸信息后，包括蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等蛋白质信息也可以随之获得。面对如此大量的信息，如果用传统的方法来收集、存储、分析，将会是一个浩大的工程，并且，在这旷日持久的工程中，很可能漏掉了许多重要的、未知的信息。随着信息的积累，生物学的发展，以及数学、物理、计算机科学的不断渗入，用计算机作为手段，参考数学、统计学、物理等学科的研究方式，将会大大降低人类的工作量，同时更系统，更全面，更快速，更准确的分析已有的数据。在此背景下，生物信息学应运而生。该学科应用数学的和计算机的科学方法来处理海量的生物学数据并进行计算和分析。主要工作包括生物学信息的采集、储存、分析处理和可视化等方面。第一章生物分子数据库如今，生物信息学已成为生命科学最为活跃的研究领域之一。而数据库是生物信息学重要的工作平台，是其基本构成之一。各种各样的生物学数据库不断出现，其数量增长十分迅速，同时数据库的内部结构亦日趋复杂。Nucleic Acid Research杂志每年第一期都公布互联网上必威体育精装版的生物学数据库资源，2013年必威体育精装版公布的数据库有1512个，在/nar/database/a/有所有数据库的链接。相比以前，现在数据库的类型更加丰富，专业性更强，几乎覆盖了生命科学的各个领域。生物信息学领域的数据库种类如此繁多，分别面向生命科学研究各领域的不同需要，其中包括直接来源于实验原始数据的一级数据库，也包括对原始生物分子数据进行整理、分类的二级数据库。想要把所有数据库一一介绍给读者是不现实的，因此，本章选取其中最基本的一些数据库进行较为详尽的介绍，使读者对生物信息学领域最基本的数据库有较为清晰的认识。在本章的最后再以表格的形式简要的介绍一些常用数据库，以此作为补充。第一节核酸序列数据库一、Genbank /EMBL /DDBJ 目前国际上有3个主要的DNA序列公共数据库，它们分别是美国生物技术信息中心的GenBank（/Genbank/GenbankOverview.html），欧洲分子生物学实验室的EMBL（http://www.embl.de/）和日本遗传研究所的DDBJ（http://www.ddbj.nig.ac.jp/）。这3个大型数据库于1988年达成协议，组成合作联合体（International Nucleotide Sequence Database Col1aboration），它们之间每天交换信息。因此，各数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。下面以NCBI的GenBank为例进行说明。 1982年美国国立卫生研究院(NIH)、美国国立医学图书馆(NLM)、美国国家生物技术信息中心(NCBI)等机构开始建立核酸序列数据库即GenBank，它是一个公共数据库，提供所有公开发表的核酸和蛋白质序列及其生物学注释以及书目文献等信息。 GenBank数据库自建立以后，其数据量就表现出高速增长态势。1985年，基因库仅有5700条记录，其中绝大多数记录来自于生物学文献。而到2013年2月为止，其收录的序列数已经超过1.6亿条，包含1500亿以上的碱基。另外，Genbank自2002年四月开始收录基因组数据信息以来，到目前为止其基因组序列也已经超过1亿条。相信随着生命科学技术的进步和基因组测序的不断进行，其数据规模还会飞速增长（如图1.1）。图1.1 Genbank数据容量的增长（WGS，Whole Genome Shotgun sequences data）（一）Genbank子库 Genb