chapter-5多重序列比对.pptVIP

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章 多序列比对 第一节 简介 序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等; 序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等; 多序列比对的意义 用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。 用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。 基因和蛋白质功能分析 其他应用,如构建profile,打分矩阵等。 全局性的多序列比对 注意 1. 最优的多序列比对,其两两序列之间的比对不一定最优 第二节 多序列比对的方法及应用 1. 渐进方法:progressive methods ClustalW/X, T-Coffee 2. 迭代算法:iterative methods PRRP, DIALIGN 3. 部分有向图算法: Partial Order Algorithm (POA) 4. 全局多序列比对的隐马尔科夫模型 ProbCons 5. 整合算法:meta-methods MUSCLE 1. Progressive methods (1) ClustalW/X a. Clustal: 1988年开发 b. ClustalW: 1994年,Julie D. Thompson等人改进、开发 c. ClustalX: 1997年,图形化软件 (2) T-Coffee ClustalW/X:计算过程 1. 将所有序列两两比对,计算距离矩阵; 2. 构建邻接进化树(neighbor-joining tree)/指导树(guide tree); 3. 将距离最近的两条序列用动态规划的算法进行比对; 4. “渐进”的加上其他的序列 ClustalW的打分原则 1.输入输出格式。 输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。 输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。 2.两种工作模式。 a.多序列比对模式。 b.剖面(profile)比对模式。 一个实际的例子 输入文件的格式(fasta): KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN…… DMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK……. KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN…… DAF1_CAEEL QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD…… 1CSN HYKVGRRIGEGSFGVIFEGTNLLNN…… 第一步:输入序列文件。 第二步:设定比对的一些参数。 参数设定窗口。 第三步:开始序列比对。 第四步:比对完成,选择保存结果文件的格式 产生输出的DND文件,它是系统的种系树 1. 距离最近的,有两组序列AB和CD,哪组最先比对?两种方案: A. 分别、同时比对。但是,是以AB为准,加入CD,然后再加上其他序列,还是CD为准?结果可能出入很大 B. 随机挑选一组作为基准 2. 当序列差异较大时,上述问题更加明显 1. 三条序列: 2.若Seq1,2先比对,再加入Seq3: 3. Seq1,3先比对,再加入Seq2: 4. Seq2,3先比对,再加入Seq1: 2 整合算法MUSCLE 算法分为三个部分,每个部分相对独立; 1. Draft progressive: (1) 对两条序列,计算距离采用k-mer的思想; (2) 用UPGMA算法构建引导树 (3) 使用渐进算法进行多序列比对 优点:两条序列之间的距离不采用动态规划算法进行比对,节省时间 2. Improved progressive: (1)基于k-mer得到的树可能会产生次优结果,因此,采用Kimura距离的方法对k-mer产生的树重新计算距离矩阵 (2)重新用UPGMA构建进化树 (3)使用渐进算法进行多序列比对 2. Refinement: (1)随机从进化树上挑出一条边,删除 (2)得到两组树,对每组树,计算profile (3)将两组profile进行比对 (4)如果最终得分提高,保留结果,否则丢弃

文档评论(0)

ma982890 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档