生物信息学-南昌大学 bi04.DNA_analysis.ppt

  1. 1、本文档共92页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物信息学-南昌大学 bi04.DNA_analysis

生物信息学 第四章 DNA序列分析 毛理凯 本课目录 基因组组成分析 关联分析 序列比对 功能位点分析 基因识别 一、基因组组成分析 (单联)核苷酸频率 对于一个给定的基因组,最简单的计算就是统计DNA序列中各类核苷酸出现的频率 对于随机分布的DNA序列,每种核苷酸的出现是均匀分布的 出现频率各为0.25 而真实基因组的核苷酸分布则是非均匀的 酵母基因组核苷酸出现频率 单双链的区别 如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、G和C的出现频率相同 如果仅统计一条链,则虽然A和T、G和C的出现频率不同,但是非常接近 酵母单链核苷酸出现频率 GC含量 (GC content) 是基因组的基本参数 DNA分子或基因组中GC碱基对所占的比例 通常用百分比表示 15~75%,两头少中间多 可用分光计测量DNA的解链温度(解链时260nm光的吸收率猛增) 因GC间为3个氢键,(超)嗜热菌GC含量高(GC-rich) GC含量被用于分类学,也对PCR重要 一般基因内GC含量高于基因组,外显子高于内含子(原因不明) 密码子的简并(degeneracy) 密码子(Codon): 编码多肽链中某氨基酸的三联核苷酸 氨基酸有20~21种 三联核苷酸有43=64种 密码子的简并:氨基酸都对应2种以上密码子(M,W除外),最多有6种对应的密码子 20种氨基酸的密码子表 密码子使用偏好 (Codon usage bias) 不同生物常常偏好使用编码同一个氨基酸的多个密码子中的一个 偏好的产生是一个分子进化的争论热点 一般认为密码子偏好反映了变异偏好和自然选择的平衡 在生长快的微生物中,如大肠杆菌和酵母,偏好反映了该物种tRNA的组成 偏好的密码子往往翻译更快更精确 研究tRNA进化较少 ‘signature’ sequence 语言学分析 under- or over-represented寡核苷酸 过量存在的寡核苷酸的例子 DNA uptake sequence of Haemophilus influenzae (9bp, needed for uptake of exogenous DNA during the naturally competent state) Chi sequence 二、关联分析 两联核苷酸频率 不同基因组中两个连续核苷酸出现的频率也是不相同的 4种核苷酸可以组合成16种两联核苷酸 酵母基因组两联核苷酸频率表 关联性分析(1) 设 Pij代表两联核苷酸(i,j)的出现频率 Pi代表核苷酸i的出现频率 则 Sij= Pij/(PiPj) 反应核苷酸i和j的关联关系 如果Sij=1,则在两个连续的位置上,核苷酸i和j的出现是相对独立的 关联性分析(2) 对于酵母基因组 PA=0.3248, PAA=0.1193 SAA=0.1193/(0.32482)=1.131 1 表明在两个连续位置上“A”的出现不是独立的,而是相关的 对于相隔一定距离的两个核苷酸,也可能具有一定的相关性,并可以计算 三联核苷酸 – 基因密码子 常常需要对三联核苷酸进行统计分析 这实际上是分析密码子的使用偏性 密码子用法 在基因中,同义密码子用法(如出现频率等)并不是完全一致的 不同物种、不同个体的密码子用法存在差异 密码子用法与蛋白结构的关系 蛋白三级结构、功能与密码子用法有关 通过聚类分析(cluster analysis),发现具有相似三级结构蛋白的编码基因大致聚在同一类中 对于同一类型的基因,由物种引起的同义密码子使用偏性的差异较小 三、序列比对 布什和猩猩的“比对” 1. 序列比对(sequence alignment)基础 早在1950s就有人进行序列比对 b-corticotropin (AGEDDE;羊)和corticotropin A (DGAEDE;猪) oxytocin (CYIQNCPLG)和vasopressin (CYFQNCPRG) 作用 序列比对是最基本的生物信息学操作 作用 发现序列之间的结构或功能相关性,以进一步探索同源性(homology)和进化 发现蛋白质的基序(motif)和域(domain) 在数据库里有哪些信誉好的足球投注网站类似序列 定义 为评价相似性(similarity)的程度或同源性(homology)的可能,将两个或更多的序列排列起来以得到最大一致性(identity)的过程 一致性 – 序列相同的程度 同源性 – 序列源于共同的祖先而产生的相似性 直系(直向)同源(orthology): 同祖同功不同种 [如哺乳动物的胰岛素基因] 旁系(共生)同源(paralogy): 同祖同种不同功 [如同起源于珠蛋白的α珠蛋白和肌红蛋白] 2. 计分矩阵(scoring matrix) 也叫替换矩阵(substit

您可能关注的文档

文档评论(0)

ligennv1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档