网站大量收购独家精品文档,联系QQ:2885784924

绘制基于k-mer信息的基因组指纹.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
绘制基于k-mer信息的基因组指纹

内蒙古科技大学 本科生毕业论文综述 题 目: 绘制基于k-mer信息的基因组指纹 学生姓名:于长龙 学 号:0866121103 专 业:生物工程 班 级:2008-1班 指导老师:刘国庆 老师 摘 要 随着基因的系统发生学研究极快地发展使得人们对微生物多样性和遗传的多态性有了更深的了解。不同生物种属或个体间基因组的核酸序列不完全相同,显示这些序列特征的图谱,就是其遗传特征的分子指纹每个基因组稳定分布的组合频率为每k及其反向互补的测量序列片段短短1000个基点,在整个基因组,16。收集这些k频率分布是独一无二的每个基因研究了各种基因组特性分析的基础上的k频率分布我们一个条码方案全基因组测序我们发现,对于每一个基因,大部分的短序列片段具有高度相似的序列片段与不同的条码条形码,而通常对应于基因水平转移或高度表达。系统学分类描述了不同生物之间的相关关系,通过系统学分类分析可以帮助人们了解所有生物的进化历史过程。这一过程并不能够直接看到,人们只能通过相关线索了解历史上曾经发生了什么,而科学家就是用这些线索建立各种假说、模型,甚至是生命发生的历史。在系统学分类的研究中,最常用的可视化表示进化关系的方法就是绘制系统发育进化树(Phylogenetic trees),用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系。通过比较生物大分子序列差异的数值构建的系统树称为分子系统树(molecular phylogenetic tree)。进化树由结点(node)和进化分支(branch)组成,每一结点表示一个分类学单元(属、种群、个体等),进化分支定义了分类单元(祖先与后代)之间的关系,一个分支只能连接连个相邻的结点。进化树分支的图像称为进化的拓扑结构,其中分支长度表示该分枝进化过程中变化的程度,标有分枝长度的进化分支叫标度枝(scaled branch)。校正后的标度树(scaled tree)常常用年代表示,这样的树通常根据某一或部分基因的理论分析而得出。进化分支可以没有分支长度的标注(unscaled),没有被标注的分支其长度不表示变化的程度,虽然分支的有些地方用数点进行了注释。 i);当且仅当; (ii); (iii)对于任意物种x,y和z,(三角不等式关系)恒成 立。 欧氏距离公式 碱基关联矩阵示例如下: 其中定义为0 将欧氏距离公式与碱基关联矩阵结合即可计算物种的进化距离。当两两物种之间的距离都被确定之后,就得到了距离矩阵。 4.系统发育树的构建 系统发育树的构建与分析是生物信息学中的一个重要分支。研究系统发育树可以重建祖先序列和估计分歧时间。对构建系统发育树的四种方法进行概述, 主要包括基于距离的方法,简约法( MP),最大似然法( ML)和贝叶斯树估计方法。而本文研究的就是通过用一个基于全基因组数据而且不依赖于序列联配的方法,计算出距离矩阵然后就可以应用已有绘树软件构建物种的系统发生树。给予距离的方法有UPGMA、ME(Minimum Evolution,最小进化法)和NJ( Neighbor??Joining,邻接法)等。首先计算给定矩阵中序列X和Y之间的距离。通过有Jukes-Cantor模型和海明模型,算出一个 序列变化到另一个序列需要变化的最小距离。一旦距离矩阵被计算, 实际树就可以用聚类技术来估计。最常使用的聚类算法是非加权配对算术平均法UPGMA和邻结法( NJ)。第二步将这二树是寻找最小化树的完整长度地表示祖先的Steiner点。Steiner问题是寻找连接N 个点的最短树。最小Steiner 树是一个NP难问题, 已经有很多好的启发式算法得到近似最优树。常用的软件包有PAUP,MEGA,PHYLIP,SPA等MP( maximum parsimony)方法对于近缘序列的进化树构建几乎是最好的。构建MP树推荐使用MEGA来构建MP树。须注意的是MP树需要先将序列做多序列比对的处理。 6.系统发生树的统计检验 系统发生树构建完成后,还要对其方法的鲁棒性进行检验。虽然传统的bootstrap检验方法和变通的bootstrap法来评价所得系统发生树的稳定性适用于序列联配过程,但是这两种方法都有一定的缺陷性。传统的bootstrap检验方法适用于序列联配过程,不适用于非联配过程。变通的bootstrap法是通过将统计所K-mer 频数进行一定比例的抽样,用参数多达208和205碱基关联矩阵是通过统计方法优选构建所得,最多不过17列。因此对这样的矩阵进行抽样不具统计意义。而高扬通过上述方法的启发,用了一种新的方法来检验。他建立 d 行的碱基关联矩阵。令d为从9到 Z 的可变参数,Z与所计算的信息关联范围 k 相对应,给定一个 d 值,可以得到一棵树。通

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档