MicrosoftPowerPoint-caas08f1a.ppt[兼容模式]-生物信息学.PDF

MicrosoftPowerPoint-caas08f1a.ppt[兼容模式]-生物信息学.PDF

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MicrosoftPowerPoint-caas08f1a.ppt[兼容模式]-生物信息学

生物信息学课程交流 基因预测 CAAS08F1A:张荣志 郑永胜 郝峰 李玉荣 张程程 李珊珊 杨菲 郑作良 刘峙 演 讲 人:杨菲 1 1.基因预测意义 2.基因预测原理 3.基测常软件基因预测常用软件 4.存在的主要问题 2 1. 基因预测意 义 据GOLD(Genomes OLiOnLine DbDatabase)网站统计,截 止到2009年3月1日,已经完成测序的基因组有958种,正在 进行测序的多达3655种。 3 大量生物基因组计划的完成提供了极其丰富的 生物序列资源,如何进行序列注释是测序后所面 临的首要问题。从目前的研究来看,基因组序列 由3 种成分构成:基因序列、重复序列、基??间 区序列。基因序列在高等 生物基 因组中 所占 的比 例可能并不大,但却是控制生物性状遗传的主要 因素,正确鉴定它们对分子遗传学研究至关重要。 4 5 2. 基因预测原理 ? 原核基因结构 ? 真核基因结构 ? 马尔可夫模型与隐马尔可夫模型 ? 基因预测算法的分类 ? 原核生物中的基因预测 ? 真核生物中的基因预测 6 2.1 原核基因结构 ? 原核生物基因组小,基因密度高,很少存在重复序列, 一个基因是由编码一个蛋白质或RNA的开封阅读框构成, 中间没有间断。 ? 细菌的起始密码子为: ATG, GTG, TTG ? 核糖体结合位点(Shine-Delgaron sequence) ? 终止密码子较容易确定 ? 转录终止子 ? 密码子偏好性 翻译终止位点 翻译起始位点 转录起始位点 编码区 转录终止子 AGGAGGT TTTTT 核糖体结合位点 7 2.2 真核基因结构 ? 基因组较大,基因密度低,富含重复序列和转座元件;最重要 的是基因???插入的非编码序列(内含子)切分成小段(外显 子)。 ? 初生的转录产物需要经过三个步骤转变成成熟的可翻译为蛋白 的mRNA。 ? 真核基因预测的主要问题是识别外显子、内含子和间接位点。 ? 真核基因中存在一 些保守序列特征有助 于进行计算预测,如: GT-AG规则,密码子偏好性,六聚体频率,kozak序列,CpG岛, poly-A 8 2.3 马尔可夫模型与隐马尔可夫模型 ? 马尔可夫模型是描述一条DNA序列中核苷酸分布的 模型。 ? 用马尔可夫模型进行基因预测利用以下事实:编码区 寡核苷酸分布概率与非编码区不同。 ? 统计分析表明密码子对具有相关性。一组六聚体核苷 酸在编码区出现的概率要比随机分布概率高,因此, 用计算六聚体碱基概率的五阶 马尔可 夫模型来检测编 码区中核苷酸的相关性准确度更高,也较为常用。 ? 在基因内容和长度分布上,非典型的基因和典型基因 是不同的,预测典型基因的模型可能会漏掉对非典型 基因的预测。为了使一 个算法适用于整个基因组中的 全部基因,就需要更多的马尔可夫模型。结合代表典 型与非典型核苷酸分布的不同的马尔可夫模型,建立 了隐马尔可夫模型预测算法。 9 2.4 基因预测

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档