- 1、本文档共47页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[理学]动物数量性状单倍体型分析及其应用
动物数量性状单倍体型分析及其应用 潘玉春 School of Agriculture and Biology 假设存在N个SNP位点,则理论上单倍体应有2N个SNP基因型。 但实际上,人们发现人类基因组中相邻近的SNP等位位点倾向于以一个整体遗传给后代,即大多数染色体区域只有少数几种SNP基因型。 所谓单倍体型(haplotype),即位于一条染色体上或某一区域的一组相关联的SNP位点。 不同民族、不同群体、不同个体的单倍体型类别和频率可能是不同的。 显然,对单倍体型进行分析为运用SNP信息探究遗传性状尤其是复杂性状的遗传机制提供了一条更加便捷、更加有效的途径。 EM算法是一种获得参数最大似然估计的迭代方法: E步:它首先假设待估单倍体型频率的一组初始值,将其看作真实频率,从而求出两个单倍体型的特定组合频率; M步:然后将此期望值代入似然函数,求出新的一组单倍体型频率的估计值,如此迭代下去,直至两次迭代所得到的参数估计值的差异小于某一个给定的常数,迭代停止,得到最大似然估计值。 1.2.3 贝叶斯算法 ?2001年,贝叶斯理论被Stephens等引入单倍体型的推断。 采用蒙特卡罗-马尔卡夫链(Markov Chain Monte Carlo, MCMC)方法进行推断,也被称为SSD(Stephens-Smith-Donnelly)算法 根据单倍体型频率先验分布的不同,SSD算法又包括了两个算式: -伪Gibbs抽样法(PGS算法),采用的是Dirichlet先验分布; -结合群体遗传的溯祖理论,采用了近似溯祖的先验分布。 采用近似溯祖的先验分布优于Dirichlet先验分布,采用近似溯祖的先验分布的SSD算法被应用到程序PHASE v1.0中。 SSD算法与EM和Clark算法的模拟比较表明: SSD算法的错误率比以前的推断方法减少近50%,较EM算法有两大优点:处理数据规模很大;可以给出单倍体型构建的不可靠性的估计。 ?2002年,Niu等与Lin等分别以Dirichlet先验分布提出另两种贝叶斯方法。 -Niu提出的PL算法引入了分割连接与预先退火两个新的计算技术,节约了运算时间。PL算法与PGS算法、EM算法和Clark算法在模拟数据与实际数据分析的比较显示,无论样本是偏离了HW状态,出现缺失数据,还是出现了重组热点,PL算法都可获得稳健估计。 Lin等对SSD算法提出修正,在原来伪Gibbs抽样法基础上考虑了缺失数据问题,同时考虑了所有可能的单倍体型,取消了对不确定性的估计。 ? 2003年, Stephens和Donnelly又提出了新算法(在程序包PHASE v2.0中),采用近似溯祖先验分布,吸收了PL算法中新技术的思路,提高了运算效率与规模。新算法考虑了重组和连锁不平衡随距离的变化,而且可以从群体基因型数据中估计重组率,确定重组热点。 ?2004年,Lin针对核心家系中个体数据缺失的情况,在2002年的算法之基础上重新构建了算法。 新算法选择了无穷等位基因模型,添加了对高度连锁不平衡区域间状态的分析,其模拟结果表明,面对缺失数据,该方法无论是对单倍体型的推断还是对缺失数据的等位基因状态的估计都具有很高的准确度。 2 单倍体域 2.1 概念 2001年,Daly等的研究表明人类染色体5q31上500kb的片断上,其单倍体型结构可以被分为一系列分离的单倍体域: 域的大小为3~92kb;域内有2~4个常见的单倍体型(这些单倍体型包含了所有染色体90%以上的SNP信息);域的内部几乎不发生重组。 几乎与此同时,Jeffreys等的单精分型(single-sperm typing)实验数据表明,Ⅱ型主要组织相容性复合体(MHC)基因序列的大部分重组都限定在狭窄的重组热点处。 这就暗示了一个有趣的假设:基因组可以被重组热点分割为一些高度连锁不平衡的区域。 染色体上存在着的连续的、稳定的、几乎没有被重组所打断的单倍体型范围,称之为单倍体域。 单倍体域很可能是遗传的最小单位,在极端情况下,它可以是一个单独的SNP ,或者是一整条染色体。 3 标签SNP 3.1 概念 Patil等(2001)进一步地表明,在一个染色体区域(单倍体域)内尽管可以有很多个SNP位点,但经常只用少数几个SNP就能够反映该区域内大多数的遗传多态模式信息。 这少数的几个有代表性的S
文档评论(0)