- 1、本文档共30页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基因预测1
1.基因预测意义2.基因预测原理3.基因预测常用软件4.存在的主要问题2
1.基因预测意义3 据GOLD(GenomesOnLineDatabase)网站统计,截止到2009年3月1日,已经完成测序的基因组有958种,正在进行测序的多达3655种。
大量生物基因组计划的完成提供了极其丰富的生物序列资源,如何进行序列注释是测序后所面临的首要问题。从目前的研究来看,基因组序列由3种成分构成:基因序列、重复序列、基因间区序列。基因序列在高等生物基因组中所占的比例可能并不大,但却是控制生物性状遗传的主要因素,正确鉴定它们对分子遗传学研究至关重要。4
5
2.基因预测原理??????原核基因结构真核基因结构马尔可夫模型与隐马尔可夫模型基因预测算法的分类原核生物中的基因预测真核生物中的基因预测6
2.3马尔可夫模型与隐马尔可夫模型?马尔可夫模型是描述一条DNA序列中核苷酸分布的模型。?用马尔可夫模型进行基因预测利用以下事实:编码区寡核苷酸分布概率与非编码区不同。9?统计分析表明密码子对具有相关性。一组六聚体核苷 酸在编码区出现的概率要比随机分布概率高,因此, 用计算六聚体碱基概率的五阶马尔可夫模型来检测编 码区中核苷酸的相关性准确度更高,也较为常用。?在基因内容和长度分布上,非典型的基因和典型基因 是不同的,预测典型基因的模型可能会漏掉对非典型 基因的预测。为了使一个算法适用于整个基因组中的 全部基因,就需要更多的马尔可夫模型。结合代表典 型与非典型核苷酸分布的不同的马尔可夫模型,建立 了隐马尔可夫模型预测算法。
(Gene 2.4基因预测程序分类?基于从头算的方法(Abinitio-based):以给定的 序列本身来进行预测,主要依赖于以下两个特征: 基因信号(Genesignals):包括起始终止密码子,内 含子剪接信号,转录因子结合位点,核糖体结合位点以及 Poly-A等。 基因内容(Gcontent):对编码区的统计学上的 描述。可以由概率模型:马尔可夫模型或隐马尔可夫模型 检测到这一特性,用以区别编码与非编码区。?基于同源性的方法(Homology-based)以检索序 列与已知基因的序列最大的匹配为基础。?基于一致性的算法(Consensusbased)以上两种策10略相结合。
2.5原核生物中的基因预测?由于原核生物基因组密度较高且没有插入 基因,其预测较真核生物简单。目前,基 于HMMs的原核生物基因预测算法已经达 到相当高的准确度。?主要对真核生物中的基因预测做详细介绍。11
2.6真核生物中的基因预测?统分为三大类:以从头算的方法为基础以同源性的方法为基础以一致性为基础?大部分程序是物种专一的,这是由于 用于获得统计参数的训练数据必须由 单一生物体取得。12
2.6.1基于从头算(Abinitio-based)?此程序的目标是从非编码序列中辨别外显子,的程序随后使外显子以正确的次序排列。?主要困难之处在于正确识别外显子。要预测外 显子,算法依赖于两个方面特征,基因信号和 基因内容。其中,六聚体频率对识别可能的编码区来说是最具有鉴别力的。?以下分别介绍用判别分析和隐马尔可夫模型进行预测的原理。13
用判别分析进行预测?一些基因预测程序依赖于判别分析,线性判别 分析(LDA)或二次判别分析(QDA),来 提高准确性。?LDA或QDA用编码信号对应的所有可能的3’端 剪接位点作二维图,并用斜线或曲线来划分编 码与非编码信号,这是以已知基因结构的培训 数据集的知识为基础的。?E.g:FGENES,MZEF.14
用隐马尔可夫模型进行基因预测?GENESCAN是以网络为基础的基于五阶马尔可夫模型进行基因预测的程序。?它结合六聚体频率以及编码信号(起始密码子, TATAbox,帽子位点,poly-A等)进行预测。?假定的外显子能够成为真外显子的概率得分为P,只有当P大于0.5时,才被认为是可靠的。?此程序训练用于脊椎动物、拟南芥(双子叶植 物)和玉米(单子叶植物)。也可以用来预测 人类基因。15
2.6.2基于同源性(Homology-based)的程序?以同源性为基础的程序是以相关物种外显子的结构及序列的高度保守性为基础的。?当一条检索序列中编码蛋白质的序列翻译后并与数据库中 最为相近的蛋白质序列比对后,如有几乎完全配对的区域, 即可显示出检测序列的外显子界限。?这种方法假定数据库中的序列都是正确的。它按照以下事 实进行合理假设:用于比较的同源序列均来自于同一物种 的cDNA或表达序列标签。由于有实验证据的支持,这对 于在未知基因组的DNA中寻找基因来说是一种十分有效的 方法。16?这种方法的缺点
文档评论(0)