可以通过序列分析识别这些特征-东南大学生物电子学国家重点实验室.PPT

可以通过序列分析识别这些特征-东南大学生物电子学国家重点实验室.PPT

  1. 1、本文档共97页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
可以通过序列分析识别这些特征-东南大学生物电子学国家重点实验室

第五章 DNA序列分析 DNA序列分析 ——基因序列 ——基因表达调控信息 寻找基因牵涉到两个方面的工作 : 识别与基因相关的特殊序列信号 预测基因的编码区域 结合两个方面的结果确定基因的位置和结构 基因表达调控信息隐藏在基因的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。 第一节 DNA序列分析步骤和分析结果评价 在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。 存放这些信息的DNA片段称为功能位点 如启动子(Promoter)、基因终止序列(Terminator sequence)、剪切位点(Splice site)等。 功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。 两个集合: 训练集(training set) 用于建立完成识别任务的数学模型。 测试集或控制集(control set) 用于检验所建模型的正确性。 用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。 Sn ——敏感性 Sp——特异性 Tp是正确识别的功能序列数, Tn为正确识别的非功能序列数, Fn是被错误识别为非功能序列的功能序列数, Fp是被错误识别为功能序列的非功能序列数。 敏感性和特异性的权衡 对于一个实用程序,既要求有较高的敏感性,也要求有较高的特异性。 如果敏感性很高,但特异性比较低,则在实际应用中会产生高比率的假阳性; 相反,如果特异性很高,而敏感性比较低,则会产生高比率的假阴性。 对于敏感性和特异性需要进行权衡,给出综合评价指标。 对于一个识别程序准确性可按下式进行综合评价: 另一个综合评介指标为相关系数,其计算计算公式为: 选择训练集和测试集 在检测算法的可行性时,需要从已知的数据中按照不同的方式选择训练集和测试集 测试集的构成非常关键 在不同的测试集上进行测试可能会得到不同的准确性结果,甚至准确性相差很大。 建立标准的功能序列测试集合。 如基因转录剪切位点的测试集合、编码区域的测试集合等。 第二节 核苷酸关联分析 对于一个给定的基因组,最简单的计算就是统计DNA序列中各类核苷酸出现的频率。 对于随机分布的DNA序列,每种核苷酸的出现是均匀分布的 出现频率各为0.25。 而真实基因组的核苷酸分布则是非均匀的 在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。 如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。 两联核苷酸频率 不同基因组中两个连续核苷酸出现的频率也是不相同的 4种核苷酸可以组合成16种两联核苷酸 令: Pij —— 代表两联核苷酸(i,j)的出现频率 Pi —— 代表核苷酸i的出现频率 则 : Pij’= Pij/(PiPj) 的值反应核苷酸i和j的关联关系 如果Pij’=1,则在两个连续的位置上,核苷酸i和j的出现是相对独立的。 对于酵母基因组 PA=0.3248 PAA=0.1193 PAA’ =0.1193/(0.3248*0.3248) =1.131 1 表明在两个连续位置上“A”的出现不是独立的,而是相关的。 同样,对于相隔一定距离k(k代表核苷酸个数)的两个核苷酸,也可能具有一定的相关性。 假设Pij(k)代表核苷酸j出现在核苷酸i之后第k个位置的频率,则可定义一个反应统计相关性的互信息I(k) I(k)值得大小实际上反应了距离为k的两个核苷酸之间的相关性的程度 三联核苷酸——基因密码子 在进行编码区域识别时,常常需要对三联核苷酸进行统计分析,这实际上是分析密码子的使用偏性。 由于密码子的简并性(degeneracy),每个氨基酸至少对应1种密码子,最多有6种对应的密码子。 在基因中,同义密码子的使用并不是完全一致的。 不同物种、不同生物体的基因密码子使用存在着很大的差异 基因密码子的使用与基因编码的蛋白的结构和功能有关,与基因表达的生理功能有着密切的联系 蛋白的三级结构与密码子使用概率有密切的关系 通过对密码子的聚类分析,可以很清晰地将具有不同三级结构蛋白质的编码基因分成不同的类,而具有相似三级结构蛋白的编码基因则大致聚在同一类中,从而证明基因密码子的使用偏性与蛋白质三级结构具有密切的相关性。 在不同物种中,类型相同的基因具有相近的同义密码子使用偏性 对于同

您可能关注的文档

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档