- 1、本文档共54页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基因组测序技术和基因识别(完整版)要点
基于编码区域碱基组成特征的识别方法 编码序列与非编码序列在碱基组成上有区别 单个碱基的组成比例 多个碱基的组成 通过统计分析识别编码序列 2、真核基因识别问题 真核基因远比原核基因复杂: 一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。 另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。 基因识别基本思路 找出基因两端的功能区域: 转录启动区 终止区 在启动区下游位置寻找翻译起始密码子 识别转录剪切位点 剪切给体位点 剪切接受体位点 各种不同的方法有不同的适应面,而不同的方法有时可以结合起来以提高基因识别的准确率。 关键问题是如何提高一个识别算法的敏感性(sensitivity,Sn)和特异性(specificity,Sp)。 3、基因识别的主要方法 两大类识别方法: 从头算方法(或基于统计的方法) 根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域 基于同源序列比较的方法 利用数据库中现有与基因有关的信息(如EST序列、蛋白质序列),通过同源比较,帮助发现新基因。 最理想的方法是综合两大类方法的优点,开发混合算法。 基因识别方法有 : (1)基于规则的系统 (2) 语义学方法 (3) 线性辨别分析(LDA) (4) 决策树 ? (5) 动态规划 ?(6) 隐马尔柯夫模型 ? (7) 剪切对比排列 (spliced alignment) 4、基因识别程序介绍 表5.7 基因识别程序及访问地址 (HP—主页;ES—E-mail服务器;WS—web服务器;CL—客户/服务器协议; EX—有可执行代码;SC—有源代码) 表5.8 各程序的性能比较(敏感性(1)—被预测出的真实编码核酸的%; 敏感性(2)—被正确识别出的编码外显子的%; 特异性(1)—预测出的编码核酸为真实编码核酸的%; 特异性(2)—预测出外显子为真实外显子的%) Genscan 访问: /GENSCAN.html 以核酸序列SEQ5作综合分析为例 SEQ5 》seq5 1 gaattccagg ttggaggggc ggcaacctcc tgccagcctt caggccactc tcctgtgcct 61 gccagaagag acagagcttg aggagagctt gaggagagca ggaaaggtgg aacattgctg 121 ctgctgctca ctcagttcca caggtgggag gaacagcagg gcttagagtg ggggtcattg 181 tgcagatggg aaaacaaagg cccagagagg ggaagaaatg cctaggagct accgagggca 241 ggcgacctca accacagccc agtgctggag ctgtgagtgg atgtagagca gcggaatatc 301 cattcagcca gctcagggga aggacagggg ccctgaagcc aggggatgga gctgcaggga 361 agggagctca gagagaaggg gaggggagtc tgagctcagt ttcccgctgc ctgaaaggag 421 ggtggtacct actcccttca cagggtaact gaatgagaga ctgcctggag gaaagctctt 481 caagtgtggc ccaccccacc ccagtgacac cagcccctga cacgggggag ggagggcagc 541 atcaggaggg gctttctggg cacacccagt acccgtctct gagctttcct tgaactgttg 601 cattttaatc ctcacagcag ctcaacaagg tacataccgt caccatcccc attttacaga 661 tagggaaatt gaggctcgga gcggttaaac aactcacctg aggcctcaca gccagtaagt 721 gggttccctg gtctgaatgt gtgtgctgga ggatcctgtg ggtcactcgc ctggtagagc 781 cccaaggtgg aggcataaat gggactggtg aatgacagaa ggggcaaaaa tgcactcatc 841 cattcactct gcaagtatct acggcacgta cgccagctcc caagcaggtt tgcgggttgc 901 acagcggagc gatgcaatct gatttaggct
文档评论(0)