- 1、本文档共31页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MicrosoftPowerPoint-caas08f1a.ppt[兼容模式]-生物信息学
生物信息学课程交流
基因预测
CAAS08F1A:张荣志 郑永胜 郝峰
李玉荣 张程程 李珊珊
杨菲 郑作良 刘峙
演 讲 人:杨菲
1
1.基因预测意义
2.基因预测原理
3.基测常软件基因预测常用软件
4.存在的主要问题
2
1. 基因预测意 义
据GOLD(Genomes OLiOnLine DbDatabase)网站统计,截
止到2009年3月1日,已经完成测序的基因组有958种,正在
进行测序的多达3655种。
3
大量生物基因组计划的完成提供了极其丰富的
生物序列资源,如何进行序列注释是测序后所面
临的首要问题。从目前的研究来看,基因组序列
由3 种成分构成:基因序列、重复序列、基??间
区序列。基因序列在高等 生物基 因组中 所占 的比
例可能并不大,但却是控制生物性状遗传的主要
因素,正确鉴定它们对分子遗传学研究至关重要。
4
5
2. 基因预测原理
? 原核基因结构
? 真核基因结构
? 马尔可夫模型与隐马尔可夫模型
? 基因预测算法的分类
? 原核生物中的基因预测
? 真核生物中的基因预测
6
2.1 原核基因结构
? 原核生物基因组小,基因密度高,很少存在重复序列,
一个基因是由编码一个蛋白质或RNA的开封阅读框构成,
中间没有间断。
? 细菌的起始密码子为: ATG, GTG, TTG
? 核糖体结合位点(Shine-Delgaron sequence)
? 终止密码子较容易确定
? 转录终止子
? 密码子偏好性
翻译终止位点
翻译起始位点
转录起始位点 编码区 转录终止子
AGGAGGT TTTTT
核糖体结合位点 7
2.2 真核基因结构
? 基因组较大,基因密度低,富含重复序列和转座元件;最重要
的是基因???插入的非编码序列(内含子)切分成小段(外显
子)。
? 初生的转录产物需要经过三个步骤转变成成熟的可翻译为蛋白
的mRNA。
? 真核基因预测的主要问题是识别外显子、内含子和间接位点。
? 真核基因中存在一 些保守序列特征有助 于进行计算预测,如:
GT-AG规则,密码子偏好性,六聚体频率,kozak序列,CpG岛,
poly-A
8
2.3 马尔可夫模型与隐马尔可夫模型
? 马尔可夫模型是描述一条DNA序列中核苷酸分布的
模型。
? 用马尔可夫模型进行基因预测利用以下事实:编码区
寡核苷酸分布概率与非编码区不同。
? 统计分析表明密码子对具有相关性。一组六聚体核苷
酸在编码区出现的概率要比随机分布概率高,因此,
用计算六聚体碱基概率的五阶 马尔可 夫模型来检测编
码区中核苷酸的相关性准确度更高,也较为常用。
? 在基因内容和长度分布上,非典型的基因和典型基因
是不同的,预测典型基因的模型可能会漏掉对非典型
基因的预测。为了使一 个算法适用于整个基因组中的
全部基因,就需要更多的马尔可夫模型。结合代表典
型与非典型核苷酸分布的不同的马尔可夫模型,建立
了隐马尔可夫模型预测算法。
9
2.4 基因预测
文档评论(0)