- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据库系统及建库技术
1%人类基因组数据库系统
黄小兵陈峰胡光强康宁段举洪星李涛
肖宇翔秦海鸥董伟王俊杨焕明
(中国科学院北京基因组研究所暨华大基因研究中心,北京101300)
摘要1%人类基因组数据库系统,以一种系统化、图形化和全面性的方式展示
了我国承担的l%人类基因组计划的序列数据和相关注释信息。该数据库系统包括
数据可视化模块、有哪些信誉好的足球投注网站引擎模块、数据分析模块和输入输出模块等,主要运用了
oracle8i数据库技术,采用B,S/s三层结构模式。以该数据库为基础,结合水稻基因
组数据库,我中心正在构建国家基因组信息系统,充分发掘和利用海量的基因组、
蛋白组数据。本篇文章描述了I%HGP数据库系统的基本架构及其为生物及医学研
究者提供的服务。该数据库由中国科学院北京基因组研究所(暨华大基因研究中
心)开发和维护,网址是http://bm.genomics.org.cn/hgo。
关键词 基因组数据库人类基因组计划生物信息学
1.介绍
由美、英、日、德、法、中6国参与的国际人类基因组计划(以下简称为HGP),其核
心内容是测定人类基因组的全部DNA序列,从而获得人类全面认识自我最重要的生物学信
体短臂上的约3000万个碱基),使中国成为第6个国际人类基因组计划参与国,也是参与该
计划的唯一的发展中国家。
HGP所倡导的“全球合作、免费共享的精神已成为自然科学史上国际合作的楷模,
果公布于它们的网站中,并发展成为国际性的数据中心。
该数据库系统为国内外生物、医学研究者提供了一个数据和应用平台。当基因组序列公
布于世时,众多的生物医学研究者关心的是如何获得他们所需的、系统的、全面的、图形化
的基因组数据信息,自然,这也就成为基因组数据库建设的目标。我们通过提供包括1%HGP
测序信息和注释信息的数据库和浏览器来积极解决这些问题,下面将一一介绍其相关内容。
2.1%HGP基因组信息概况
从基因组序列中,能够得到的生物学信息有哪些呢?在1%人类基因组计划数据库及浏览
器中,主要考虑基因组的几个大特性:GC含量分布,CpG岛,重复序列和基因等,以下简
要介绍这些特性的生物学含义:
(1)序列基因组序列数据是一切基因组分析与研究的数据基础。
(2)GC含量GC含量与各种生物学特性具有相关性,比如基因的密度、重复序列的
组成等,甚至与细胞遗传学中不同的染色体带也有关系。但以前这些研究只能是间接的,而
基因组测序的结果使直接而全面地探索GC含量的变化成为可能。从浏览器中可以发现,
1%HGP的GC含量正围绕着基因组平均含量41%这个值来回波动。
低,出现率仅为预计值的20%,这是由于其甲基化的原因。但足,在基因组中仍会有许多CpG
岛,在这些岛中CpG没有经过甲基化,发生的频率非常接近于理论值。而且,许多CpG岛
位于基因的5’端,这对于基因预测具有重要的指导意义。从浏览器中可以看出,CpG岛的
起始端用竖线标出。
(4)ncRNA RNAs,非编码RNAs)是基因的另外一种最终产物,虽
ncRNA(Noncoding
然生物学家经常把基因与其编码的蛋白质联系起来。几种主要的ncRNA是:转运
它们在mRNA剪切、翻译等过程中起着举足轻重的作用。
符)解释为基因组包含了大量的重复序列。对于人类基因组来说,重复序列至少占一半以上,
而编码序列却不足5%。重复序列并非垃圾,实际上它们包含了丰富的生物进化信息。人类
的大多数重复序列来源于转座单元,其中三类转座予以RNA为媒介转座,一类直接以DNA
LINE占更大的比重。
(6)EST
EST(ExpressedSequenceTags,表达序列标签)是基因组中被转录的部分,
人类基因的90%以上。由于EST与基因的关系,EST数据被用来发现新的基因。在浏览器的
细节页面中,可以看到属于同一个基因的EST数据用横线相连。
Nucleotide
(7)SNPSNP(Single
类全基因组中稳定的多态位点,代表了不同个体之问最大的遗传差异。不同的人群有不同的
SNP分布特征,这是种族起源、遗传疾病易感性、外貌生理特征等方面的差异在基因组水平
上的表现。SNP的研
文档评论(0)