关于功能富集分析的基础知识.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

关于功能富集分析的基础知识

富集分析

基因富集分析(genesetenrichmentanalysis)是在一组基因或蛋白中找到一类过表达的基因或蛋白。研究方法可分为三种:Over-RepressentationAnalysis(ORA),FunctionalClassScoring(FCS)和PathwayTopology。ORA是目前应用最多的方法,GO富集分析和KEGG富集分析就是使用的这种方法;FCS这种方法应用于GSEA分析。

功能分析(functionalanalysis)/通路分析(pathwayanalysis)是将一堆基因按照基因的功能/通路来进行分类。换句话说,就是把一个基因列表中,具有相似功能的基因放到一起,并和生物学表型关联起来。GO分析是将基因分门别类放入一个个功能类群,而pathway则是将基因一个个具体放到代谢网络中的指定位置。

为了解决将基因按照功能进行分类的问题,科学家们开发了很多基因功能注释数据库。这其中比较有名的就是GeneOntology(基因本体论,GO)和KyotoEncyclopediaofGenesandGenomes(京都基因与基因组百科全书,KEGG)。

GO

GO数据库是基因本体论联合会(GeneOntologyConsortium)建立的一个数据库(官网/),旨在建立一个适用于各种物种的、对基因和蛋白功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。分别从分子功能、参与的生物途径及细胞中的定位对基因产物进行了标准化描述,一个基因对应有一个或多个GOterm(GO功能),一个term对应多个gene。

GO注释分为三大类,分别是:分子生物学功能(MolecularFunction,MF)、生物学过程(BiologicalProcess,BP)和细胞学组分(CellularComponents,CC),通过这三个功能大类,对一个基因的功能进行多方面的限定和描述。

Cellularcomponent解释的是基因产物在哪里,在细胞质还是在细胞核,如果存在细胞质那在哪个细胞器上,如果是在线粒体中那是存在线粒体膜上还是在线粒体的基质中。

Biologicalprocess该基因参与了哪些生物学过程,比如参与了rRNA的加工或参与了DNA的复制。

Molecularfunction该基因在分子层面的功能是什么,它是催化什么反应的。

通常在得到差异表达基因后,可通过功能富集分析进一步筛选对生物体具有重要意义的基因。将筛选得到的基因分门别类放入细胞组分CC、分子功能MF和生物过程BP三个功能类别中,基因产物被尽可能的富集到最低层的功能term上。寻找各个基因是否有共同的GO条目,或者有没有共同的上级GO条目,可以发现具有某些共同特点的基因。根据超几何分布关系,GO分析会对涉及的GO返回一个p-value,小的p值表示差异基因在该GO中出现了富集。GO分析对实验结果有提示的作用,通过差异基因的GO分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。

补充:

GO是GeneOntology的缩写。本体论是哲学概念,它是研究存在的本质的哲学问题。后来这个词被应用到计算机界,定义为概念化的详细说明。在实现上,一个ontology往往就是一个正式的词汇表,其核心作用就在于定义某一领域或领域内的专业词汇以及他们之间的关系,是领域内部不同主体之间进行交流的一种语义基础。

使用GO的时候一般需要GO定义文件和GO关联文件。GO定义文件存放GO词条的定义,而GO关联文件则是不同命名体系与GO词条的映射关系。条目标准定义:

id:GO编号,如:GO:0031985

name:全称,Golgicisterna

ontology:命名空间namespace,cellular_component

definition:定义,Anyofthethin,flattenedmembrane-boundedcompartmentsthatformthecentralportionoftheGolgicomplex.Source:GOC:mah

条目之间的关系,采用有向无环图(DirectedAcyclicGraphs,DAG)的形式。注释系统中每一个节点就代表了一个基本描述单元(term),有向指的是term之间的单向指向性关系,比如termA是内质网,termB是细胞器,规定A是B,却不能说B是A;无环指的是从任何一点开始沿着规定的指向都不能回到原点。

图片来源于网络

KEGG

KEGG是一个整合了基因组、化学和系统功能信息的综合数据库。KEGG下属4个大类和17和子

文档评论(0)

偶遇 + 关注
实名认证
内容提供者

个人介绍

1亿VIP精品文档

相关文档