第5章-基因组注释教学教材.ppt

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第5章-基因组注释

5.1.1根据基因结构特征搜寻基因通过ORF扫描(ORFscanning)定位蛋白质编码基因“Anopenreadingframeisaportionofagenessequencethatcontainsasequenceofbases,uninterruptedbystopsequences,thatcouldpotentiallyencodeaprotein”

i)原核生物中ORF扫描可有效定位基因原核生物的ORF是指从起始密码子到终止密码子的一段序列,通常代表一个编码蛋白质的基因startcodon:ATGstopcondon:TAA,TAG,TGA

ORF扫描的关键是stopcodon在6种读框中出现的频率,一般长的ORF(不少于100个codon)可能代表一个基因(Ecoli~317codonsyeast~483human~450)原核生物基因无内含子,基因间DNA少,很少有重叠基因和基因内基因,因此原核生物中简单的ORF扫描可以定位大多数基因

ii)真核生物ORF扫描程序的修改不能仅仅根据ORF长度来判断哪种读框正确,因为:a.基因间有大量的非编码序列b.基因通常含有非编码的内含子,外显子长度往往小于100个密码子扫描真核生物ORF必须加入的规则:①密码子偏倚(codonbias)②外显子-内含子边界(exon-intronboundaries)③上游调控序列(upstreamregulatorysequence)

Codonbias:是指特定生物体的基因中并不是所有密码子的使用频率都是相同的所有生物都有密码子偏倚,预期真正的外显子有密码子偏倚,而非编码区,三联核苷酸随机排列不会有密码偏倚现象,只有平均的碱基分布水平。所以根据已有的生物密码子偏倚的资料在编写计算机程序时会写入这些限制,许多基因注释程序会写明适用于哪些物种

人类,果蝇和大肠杆菌中精氨酸密码使用频率的比较

Exon-intronboundaries内含子5’端或donorsite:5’-AG↓GTAAGT-3’3’端或acceptorsite:5’-PyPyPyPyPyPyCAG-3’很多外显子-内含子边界序列并不是上述序列,所以上述序列只适用于一定范围

Upstreamregulatorysequence调控序列有明显特点,在查找基因时可作为参考,特别是原核生物,但真核生物基因上游的调控序列变化较大,以此作为标志判断基因应当谨慎另外个别生物的基因组特有组成也可作为判别依据,如脊椎动物基因组许多基因的上游都有CpG岛

定位功能性RNA(functionalRNA)基因此类RNA往往具有特征性的二级结构,这些特征可以用来帮助在基因组序列发现它们

5.1.2同源基因有哪些信誉好的足球投注网站同源查询(homologysearch)通过待查基因组序列与DNA数据库中的已知基因序列进行比较,从中查找可与之匹配的碱基序列或蛋白质序列及其比例用于界定基因的方法依据现有生物的不同种属之间具有功能或结构相似的同源基因成员,它们在起源上一脉相承,其间存在保守的顺序组成

5.1.2同源基因有哪些信誉好的足球投注网站同源查询(homologysearch)通过待查基因组序列与DNA数据库中的已知基因序列进行比较,从中查找可与之匹配的碱基序列或蛋白质序列及其比例用于界定基因的方法依据现有生物的不同种属之间具有功能或结构相似的同源基因成员,它们在起源上一脉相承,其间存在保守的顺序组成

序列相似性的表现:①存在某些完全相同的序列②ORF读框的排列类似,如等长的外显子③ORF指令的氨基酸顺序相同④模拟的多肽高级结构相似

比较基因组学是一种更准确的同源搜寻方法运用基因组之间的同线性可以检测短ORF的真实性

常用的基因注释软件1)abinitio基因预测软件GeneScan(/GENSCAN.html)偏重于运用起始密码子,终止密码,终止信号,剪接供体和受体序列,多聚嘧啶序列,分支点保守序列来进行基因预测FgeneSH(/berry.phtml)偏重于运用密码子使用偏好来进行基因预测,据研究是最快和最准确的预测基因的软件

2)根据同源性进行基因注释TWINSCAN(/nscan)SGP2(http://genome.crg.es/software/sgp2/sgp2.html)任何一种软件都不可能根据所

文档评论(0)

186****3372 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档