bioinformatics2008-2009semester1ustc二项分布.ppt

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物信息学第三章双序列比对为什么要序列比对基于同源物鉴定的功能预测基本假设序列的保守性功能的保守性注意蛋白质一般在三级结构的层面上执行功能蛋白质序列的保守性决定于其编码的保守性序列同源性模型中的进化假设所有的生物都起源于同一个祖先序列不是随机产生而是在进化上不断发生着演变基本假设序列保守性结构保守性注意反之可以不为真结构保守性序列保守性同源物定义直系同源物两个基因通过物种形成的事件而产生或源于不同物种的最近的共同祖先的两个基因或者两个物种中的同一基因一般具有相同的功能旁系同源物两个基因在同一物种

生物信息学 第三章 双序列比对 (1) 为什么要序列比对 基于同源物鉴定的功能预测 基本假设: 序列的保守性 功能的保守性 注意: 1. 蛋白质一般在三级结构的层面上执行功能; 2. 蛋白质序列的保守性决定于其编码DNA的保守性; 序列同源性模型中的进化假设 1. 所有的生物都起源于同一个祖先; 2. 序列不是随机产生,而是在进化上,不断发生着演变; 3. 基本假设: 序列保守性 结构保守性 注意:反之可以不为真。 结构保守性 序列保守性 同源物:定义 Ortholog (直系同源物):两个基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。 Paralog (旁系同源物):两个基因在同一物种中,通过至少一次基因复制的事件而产生。 Xenolog (异同源物):由某一个水平基因转移事件而得到的同源序列。 直系同源物:物种形成 旁系同源物:基因复制 一个复杂的问题 直系同源物 vs. 旁系同源物? 本章内容提要 第一节:序列比对的数学基础:概率及概率模型 第二节:动态规划算法的介绍。Dot matrix,动态规划算法(Needleman-Wunsch, Smith-Waterman算法), FASTA和BLAST算法的介绍 第三节:打分矩阵及其含义 第四节:序列比对的显著性检验 第五节:同源物有哪些信誉好的足球投注网站 第一节 序列比对的数学基础 概率模型:一个能够通过不同的概率产生不同结果的模型。概率模型可以模拟或者仿真某一类型的所有事件,并且对每个事件赋予一个概率。 概率分布 1. 考虑连续变量x,例如:物体的重量。则当重量确切为1公斤时的概率,为0。 2. 变量的区间:P(x0≤x≤x1) 3. 当区间无限小 - 0时,上式: P(x -δx/2 ≤x≤x + δx/2 ) = f(x)δx 4. f(x)称为概率密度函数 5. 因此: 二项分布 1. 事件只有两种可能出现的结果。例如掷硬币,正面记为“1”,反面记为“0”。 2. 则,掷硬币N次,有k次是1的概率为: 二项分布 (2) 泊松分布 1. 稀有事件发生的概率:在一个连续的时间或空间中,稀有离散变量出现的概率 2. N - ∞, E(x)=μ 例1:鸟枪法的覆盖率 1. 近似的符合泊松分布 (Poisson distribution) 2. 假设:需要测序的BAC长度200kbp; 总共测序的序列数量:N; 每次测序:500bp; 每次测序的覆盖率 p:500/200kbp=0.0025 因此:总覆盖率 C=Np (每个点平均覆盖到的次数) 3. Y: 测序能够覆盖到点X的次数。 鸟枪法:覆盖率 覆盖率 vs. 准确性 泊松分布:例2 Prof. Gene发现一种序列上的调控信号,在人的基因组上平均每500kbp一个。那么,随机给一条1mbp的序列,在上面发现5个这样的信号,完全是随机产生的概率是多少? 超几何分布 与二项式分布的区别:不放回抽样。 例:有N个球,其中红球M个,白球N-M个,每次拿出一个球再放回,总共n次,其中有m个球是红球的概率为 (二项式分布): 超几何分布 (2) 上例改为:有N个球,其中红球M个,白球N-M个,每次拿出一个球不放回,总共n次,其中有m个球是红球的概率为: 超几何分布 (3) 上例再改为:有N个球,其中红球M个,白球N-M个,每次拿出一个球不放回,总共n次,其中有至少有m个球是红球的概率为: 超几何分布 (4) 上例再改为:有N个球,其中红球M个,白球N-M个,每次拿出一个球不放回,总共n次,其中有最多有m个球是红球的概率为: 超几何分布:例 Prof. Gene从26873个人的蛋白质中预测了2264个具有某种特定功能的底物,并进行进一步的分析。其中,有421个人的蛋白质具有某种功能结构域D,而在预测的2264个底物中,有94个蛋白质具有结构域D。 问:结构域D在2264个底物中是显著出现,显著不出现,还是随机出现? 超几何分布:例 (2) 1. N = 26873; n= 2264; M = 421; m = 94; 2. (m/n)/(M/N) = 2.65 3. 因此,问题转化:在26873个人的蛋白质中,抓出2264个蛋白质,其中至少有94个蛋白质具有功能结构域的概率是多少? 结果 Fisher’s Exact Test 超几何分布的精确概率计算:2X2表 因此,超几何分布计算公式 如上例 a+b+c+d=26873, c+d=2264, b+d=421, d=94, 因此: Fisher’s Exact T

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档