- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
泊松分布与WGS组装问题讲述
泊松分布与WGS组装问题 樊伟 二项分布 (Binomial Distribution) 在每一次试验中,都有两种互斥的结果,如成功和失败。每一种结果在每次试验中都有恒定的概率,设成功的概率为?。每次试验之间是独立的,互不影响的。求在n次试验中一种结果(如成功)出现x次的概率? 泊松分布 二项分布中,如果?非常小,并且n非常大,则成为泊松分布。 WGS测序 WGS (Whole Genome Shotgun)测序,就是一个天然的泊松分布过程,包括碱基深度分布,Kmer深度分布,以及reads duplication rate等问题,均可以用泊松分布来解释。 组装过程中的contig个数,contig平均长度等问题,亦可根据泊松分布来进行推导,这就是Lander-Waterman model理论。 碱基深度问题 符合二项分布: 设基因组大小为G, 假定每次试验可从基因组任何位置上随机产生一个碱基。对于基因组上某一个固定碱基位置,在一次试验中,该位置被命中的概率为? (? =1/G)。我们将试验重复n次,相当于产生了n个碱基(n=c*G, c为coverage)。碱基的深度分布,相当于求该位置被命中0次,1次,…,n次的概率各是多少? 符合泊松分布: 1/G非常小,c*G非常大。 拓展开来 Kmer的mapping,符合泊松分布。理解Kmer分布,是理解Kmer de brujin graph组装的关键。Kmer depth (d_k)是de bruijn graph组装的核心参数。 整条reads的mapping, 亦符合泊松分布。这可用来计算理论上的reads duplication rate问题。 Control the d_k, which equals to (L-K)/L*c 每一个文库测序duplication rate理论值计算 Lander-Waterman model – 理想组装模型 一定区间内落入reads问题 (Probability some read hits an interval ),是计算Lander-Waterman model的关键。 设基因组大小为G, 假定每次试验可从基因组任何位置上随机产生一条长度为L的reads。对于某一长度为L的固定区间,该reads的头部落入该区间的概率为? (? =L/G)。将该试验重复n次,相当于产生了n条随机reads。 泊松分布模型: ? = nL/G = c (有些地方表示为a) Lander-Waterman model一些重要公式 真正的组装问题 * X的均数? = n? X的方差?2 = n?(1-?) Piosson分布的总体均数为? Piosson分布的均数和方差相等 ?=?2 ?为从1到60的Possion distribution曲线, 当?较大时,将接近于正态分布。 用C/C++中random函数,模拟产生随机reads, 察看depth分布。 结果证明random函数足够随机,其产生的reads符合泊松分布。 43.5 9.36E-14 30.0 36.2 1.39E-11 25.0 30.0 1.02E-09 20.7 29.0 2.06E-09 20.0 21.7 3.06E-07 15.0 14.5 4.54E-05 10.0 7.2 6.74E-03 5.0 6.7 1.01E-02 4.6 5.8 1.83E-02 4.0 4.3 4.98E-02 3.0 2.9 1.35E-01 2.0 1.4 3.68E-01 1.0 c (d_b) when K=31, L=100 P(X=0, e-c) d_k = (L-K)/L*c 95.96% 5 500 59.40% 2 200 26.42% 1 100 9.02% 0.5 50 1.75% 0.2 20 0.47% 0.1 10 0.12% 0.05 3 0.02% 0.02 2 0.00% 0.01 1 Reads duplicate ratio Read depth(X), Possion mean value Base depth (X) Table. Ratio of duplicated reads (Possion P(X=2) ), let read length L=100bp. *
文档评论(0)