- 1、本文档共40页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
定义四:序列的相关度 对于任意的两个序列AN、BM,定义序列A和序列B的相关序列Si 定义序列B对序列A的相关度为 例如序列A{T,C,T}与序列B{A,G,T,C,T,C}的相关度为: 公理一:任意给定三个序列S、A、B,若A与S的相关度大于B与S的相关度,则A与S属同一类的可能性大于B与S属同一类的可能性。 基于相关度的分类算法 1、对于任意一个未知序列S将其与序列A1-A20中的每一个依次作求相关度的运算,结果记为SS1,SS2,…SS20。 2、定义S与A、B类的平均相关度分别为 3、判别准则 若SA>SB,则将S判定给A类 若SB>SA,则将S判定给B类 若SA=SB,则将S列为不可判类 4、 W可作为衡量该序列分类的可信性的一个标准,显然当W 越接近于1,该序列与A类的相关性和与B类的相关性区别就越小,分类结果就越不可信。反之W 与1差的越远,该序列与A类的相关性和与B类的相关性区别就越大,分类结果就越可信。 方法五的改进 带反馈的相关度分类算法 一般说来,带反馈的算法以神经网络算法最具有代表性,但对于一般的分类算法而言,可以采用多次反复分类的办法来实现反馈的目的 1、对全部未知样本进行相关度分类,计算出所有未知样本的W值; 2、在所有被判为A类的待分类序列中,取出W值最大的一个作为标准学习样本加入到A类的标准样本中; 3、在所有被判为B类的待分类序列中,取出W值最小的一个作为标准学习样本加入到B类的标准样本中; 4、重复对剩余的待分类序列进行相关度分类,并按上述步骤不断扩充标准学习样本,直至全部的待分类序列都被加入到标准学习样本中。 用新算法对未知序列进行了重新分类,得到了不同于原无反馈分类算法的结果,而且新的分类结果的W 值明显与1离开的更大。可以看出反馈对算法的性能有一定的改进! 六 其它一些研究方法 基于生物学的特征抽取 三联体,具有三联体形式的遗传密码子对蛋白质的合成具有决定性作用。有理由认为它在序列中的出现体现了该序列的本质特征 基于人工神经网络的模型 人工神经网络是一种带反馈的自适应算法,本问题采用神经网络模型是合适的它可以在给定特征向量的情况下代替一般的距离分类模型 运用模糊聚类分析 可以从DNA序列的全局角度出发,来研究DNA序列的分类, 忽略DNA序列的局部结构的特征,从全局的角度对DNA序列进行研究。 生物信息学的发展趋势 获取人和各种生物的完整基因组, 建立相关数据库,发展分子标记辅助育种技术 发现新基因和新的单核苷酸多态性 基因组中非编码蛋白质 完整基因组的比较研究 在基因组水平研究生物进化 从功能基因组到系统生物学 蛋白质结构模拟与药物设计 新型高效算法在生物信息学中的应用 在生物信息学中, 许多研究就是对新算法的需求,“算法是core 、算法是key 、算法是soul”。 生物信息学对我们提出了很多富有魅力的话题, 比如DNA 序列拼接、比对,蛋白质折叠,疾病基因发现,药物作用靶点预测等等。有些问题甚至是NP 性质的,这些问题到现在还是没有办法解决的, 必须等到新的算法出现, 才能够得到解决。 2000年6月人类基因组计划中DNA全序列草图完成, 2004年10月绘制了精确的全序列图,标志着生命科学“登月计划”又向前迈出一步,从此人类拥有了一部记录着自身生老病死及遗传进化全部信息的“天书” 。 DNA作为一种遗传物质,早已在50多年前就被发现。它是由4种碱基:腺嘌呤(A) 、胞嘧呤C) 、鸟嘌呤(G)及胸腺嘧呤(T)按一定顺序排成的长约30亿的序列。 虽然全序列图绘制成功,但这个几十亿的长序列中既没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。 破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。 但人们也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略
文档评论(0)