- 1、本文档共30页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DNA 序列分类模型
摘要
本文分析了已知类别的人工 DNA 序列的特征,建立了聚类分析延拓模型和
马尔可夫模型,分别对未知类别的人工 DNA 序列和自然序列进行分类,根据分
类效果选出了较优模型。
首先对数据进行预处理,得到人工DNA 序列的单个碱基丰度和不同碱基丰度
之比等特征量,进而分析A 、B 两类的差异,得到合适的特征判定条件对未知类
别的DNA 序列进行分类。计算人工DNA 序列的特征量,给出各序列的统计数据。
其次用聚类分析延拓模型进行分类。用 A 、B 两类具有明显差异的特征作为
样品特征变量,得到欧式空间中表征编号1-20 人工DNA 序列的特征向量,计算
两两之间的Lance 和Williams 距离进行相似性度量,逐步选择相似性较大的归为
一类,同时不断更新类内的标准比较特征向量,对聚类方法进行延拓,最终得到
类内差异小、类间差异大的A 、B 两类,建立了聚类分析延拓模型。再对选取的
特征变量进行改进,提高模型的分类效果。最后,借助均值、方差和相关系数等
参数对改进模型的分类效果进行分析。
再次用马尔可夫模型进行分类。将 DNA 序列看成是马尔可夫链,求出编号
1-10 和 11-20 人工 DNA 序列在已知当前碱基种类的条件下,下一个碱基出现任
一种的概率,结果存入概率转移矩阵1 和2,再利用矩阵1 和2 分别求出编号1-20
中任一条DNA 序列出现的概率,选择较大的一个作为该DNA 序列的分类,建立
马尔可夫模型。再进行与聚类分析延拓模型类似的改进和检验工作,然后对编号
21-40 人工DNA 序列和182 条自然序列进行分类,得到最终结果。
最后,用层次分析法综合评价模型一与模型二,选择聚类分析延拓模型作为
最终模型,其分类结果作为最终结果,具体如下:
编号21-40 人工DNA 序列中属于A 类的样品编号为:22,23,25,27,29,
30,34,35,36,37,39 ;属于B 类的样品编号为:21,24,26,28,31,32,
33,38,40 。
182 条自然序列中,属于B 类的样品编号为:7,10,12,22,23,24,26,
28,30,34,43 ,48 ,50,54,57,65,75,76,80 ,84 ,85 ,86 ,92 ,98 ,
103,107,110,114,116,119,121,122,123,127,128,129,130,131,
137,138,140,142,143,144,146,151,156,159,161,162,163,166,
168,170,173,174,175,179,180,181,182;其余为A 类。
关键词 DNA 序列分类 聚类分析延拓法 Lance 和Williams 距离 马尔可夫
法
一、问题重述
1.1 题目背景
(1)2000 年6 月,人类基因组计划中DNA 全序列草图完成,预计2001 年可
以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的
全部信息的“天书”。
(2)这本 “天书”是由4 个字符A,T,C,G 按一定顺序排成的无间隔的长
约30 亿的序列,除了这4 个字符表示4 种碱基以外,人们对它包含的“内容”
知之甚少。因此,破译这部世界上最巨量信息的“天书”是二十一世纪最重要的
任务之一。
(3)为解读这部“天书”,首先要研究DNA 全序列具有什么结构,以及由这
4 个字符排成的看似随机的序列中隐藏着什么规律,这也是生物信息学最重要的
课题。
1.2 题目信息
(1)DNA 序列分为编码区与非编码区。编码区是用于编码蛋白质的序列片段,
即由这4 个字符组成的64 种不同的3 字符串,其中大多数用于编码构成蛋白质
的20 种氨基酸。
(2)在不用于编码蛋白质的序列片段中,A 和T 的含量特别多些,于是以某
些碱基特别丰富作为特征去研究DNA 序列的结构也取得了一些结果。
(3)利用统计的方法还发现序列的某些片段之间具有相关性。
这些发现说明DNA 序列中存在着局部的和全局性的结构,充分发掘序列的结
构对理解DNA 全序列有十分重要的意义。目前在这项研究中最普通的思想是省略
序列的某些细节,突出特征,然后将其表示成适当的数学对象。
1.3 题目要求
(1)有20 个已知类别的人工制造的DNA 序列(见附件1),其中序列标号
文档评论(0)