- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物信息大作业
系统发育树构建方法的研究进展
科 目: 生物信息
学 院: 物联网工程学院
专 业: 计算机科学与技术
班 级: 计科0905
学 号: 0304090518
姓 名: 徐海涛
2011年12月21日( phylogenetictree),它是用类似树状分支的图来表示各种( 类) 生物之间的亲缘关系, 通过对生物序列的研究来推测物种的进化历史。主要是通过DNA 序列, 蛋白质序列, 蛋白质结构等来构建系统发育树, 或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。研究系统发育树的目的可以重建祖先序列??性状; 估计来自于同一个祖先的不同生物之间的分歧时间; 识别和疾病关联的突变等。近些年随着基因数据的爆炸增长, 系统发育树的构建越来越流行。基于分子的进化研究已经应用到许多方面, 如基因进化, 物群划分, 交配系统, 父亲身份测试, 环境监视以及已经转移物种的疾病源的研究等。
从数学的观点看, 系统发育树是一颗树叶有标签的有根二叉树, 根表示祖先序列。系统发育树主要是它的拓扑结构和分支长度。分支长度表示突变的时间。拓扑表示树的分支模式, 有N 个叶子可生成无根树的数目根据Schroder 公式有( 2N - 5) ! ! ,对每个无根树有( 2N - 3) 种可能的分枝。因此, 有根树的树目是( 2N - 3) ( 2N - 5) ! ! = ( 2N - 3) ! ! [ 1] 。系统发育树的叶子在生物上称作操作分类单元OTU( operat ional taxonomic units) , OTU 代表构建的系谱的不同生物。构建系统发育树所用的数据用矩阵XN ??K 表示, N 表示氨基酸或核苷酸的序列数, 即有N 个叶子的树。K 表示序列的字符数( 列数) 。构建树分析主要有二步: 第一步用XN?? K 矩阵产生树??T 并用来估计未知的树T ;第二步产生关于T?? 的可信描述, 通常采用Bootstrap 方法。一般Bootstrap 的值70, 则认为构建的进化树较为可靠。如Bootstrap
的值太低, 则说明有可能进化树的拓扑结构有错误,进化树是不可靠的。
替代模型:
基于距离的方法和最大似然法都是用参数模型描述序列间突变的过程, 此过程称为替代模型。首先定义替代概率P ( t ) , 即一个给定序列位置i 上的字母x 经过t 时间进化成y 的概率。类似Markov 过程, 表示为
P ( t ) 与变化矩阵Q 有关, Q 表示一个核苷酸( 氨基酸) 变成另一个核苷酸( 氨基酸) 的概率。有许多替代模型, 最简单的是Jukes-Cantor 模型, 这个模型假定DNA 中的核苷酸发生变化的概率是相同的, Q 的定义如下:
其中表示突变率。如果是氨基酸序列, 矩阵的大小为 通常比 突变更频繁些。
系统发育树构建方法
系统发育树构建方法通常有四种类型: 基于距离的方法, 简约方法( parsimony method) , 最大似然法和贝叶斯估计方法。基于距离的方法有UPGMA、ME(Minimum Evolution,最小进化法) 和NJ( Neighbor-Joining, 邻接法) 等。首先计算给定矩阵中序列X 和Y 之间的距离, 有Jukes-Cantor 模型和海明模型。dH ( s1 , s2 ) 表示一个序列变化到另一个序列需要变化的最小数目。如:dH ( GGGAACT, GGCAACT ) = 1。表1 是用Fitch 和Marogliash 计算20 个物种氨基酸序列的海明距离矩阵的一部分。一旦距离矩阵被计算, 实际树就可以用聚类技术来估计。最常使用的聚类算法是非加权配对算术平均法UPGMA ( Unweighted Pair GroupMethod with Arithmetic mean) 和邻结法( NJ) 。例如, 首先在给定矩阵中选择有最小距离的两个物种, 在这里选择man 和monkey, 第二步将这二个物种聚类成一个子树, 然后根据公式dist( man- monkey, 物种i ) =12( dist?? ?? ( man, 物种i ) + dist( monkey, 物种i ) ) ( 2)计算出这个新生成的子树与其他物种间的距离, 如表2 所示。最后生成的系统发育树如图1所示。
基于距离方法的缺点: 该方法对物种不同的突变率的敏感性高, 只关注距离矩阵而不是序列数据,如启发式
文档评论(0)