- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
dna序列比对终极版符程序2
DNA序列的分类和比对
摘要
问题一:利用MATLAB对24个DNA序列进行两两对比,将第i个与i后面的所有序列进行比较(i=1,2......24),筛选出相似度85%的比对序列分为同一类。
问题二:为了从题目中的24个碱基对的DNA序列中找出含有52个碱基对的新序列CTACCGCCTCGGAAACGGCGTGTGTGGAATTGTGGCATTAAATTCTTTCACT的进化来源,本文用了递推序列比对法,利用MATLAB软件,将新序列与24个DNA序列化为矩阵形式,将新序列从左到右以单位1的间隔移动,每移动一次,就将重叠部分的碱基比对一次。最后找出相似度最高的DNA序列。
关键词:序列比对 MATLAB 子序列 矩阵 相似度
一、问题重述
下面的24个DNA序列(附录一)是来自不同物种的一个基因片段,请将它们分类。另外,如果有一个新的序列
“CTACCGCCTCGGAAACGGCGTGTGTGGAATTGTGGCATTAAATTCTTTCACT”
请判断它最可能是哪个序列的一部分进化来的。
问题分析
问题一:利用MATLAB对24个DNA序列进行两两对比,将第i个与i后面的所有序列进行比较(i=1,2......24),筛选出相似度较高的序列分为同一物质。利用MATLAB设计程序,将24个DNA序列两两比较:先用与进行比较,再用与比较,以此类推,直到比对完。
问题二:将所有序列用一维矩阵形式表示,由于新序列只有52个碱基对,故对DNA序列进行分割后,相减得到一维矩阵。一维矩阵里的元素中,0代表重叠部分。其他不为0的元素均代表不重叠部分。根据元素0的分布,很容易可以看出相同碱基对的连续性。选择标准:若两个0相邻则附值1,间隔1赋值0.5^1,间隔2赋值0.5^2,以此类推。直到间隔数大于5时,则将它剔除。以此标准将各个赋值相加。最后比较相似度(S=L/52*100%)大小得出结论。
三、问题假设
假设一:所有碱基对都准确无误;
假设二:不考虑碱基序列的非编码区和编码区的区别;
假设三:将DNA序列中除A、T、G、C外的碱基进行转化,对结果没有影响
四、符号说明
M 新序列矩阵 第i个DNA序列 J 重叠部分相减得到的矩阵 S 相似度 L 连续性程度
模型的建立与求解
5.1 模型一
5.1.1 模型的建立
1、利用MATLAB设计程序,将24个DNA序列两两比对:先用与进行比对,再用与比对,以此类推,直到比对完。
2、比对方法
举例子:新序列CAT;已知序列ATTGCATCCGT
比对:
A T G C T A T 1 C T A 2 C T A 3 C T A 4 C T A 5 C T A 3、相同碱基判断方法:按以上方法一一比对,将重叠部分相减得矩阵J。提取出含0元素最多的矩阵,再用这个矩阵中0元素的个数除以两个比对序列中较短的碱基个数,从而的到相似度。
2、 计算出各个比对的相似度,提取出相似度大于等于85%的比对,定义为同类DNA序列。
5.1.2 模型一的求解
1、利用MATLAB(程序一)得到,各个比对的相似度为:
1 2 3 4 5 6 7 8 9 10 11 12 1 1 2 0.4236 1 3 0.2609 0.4481 1 4 0.4386 0.33 0.5043 1 5 0.4213 0.6037 0.3858 0.6143 1 6 0.4232 0.3213 0.5595 0.4677 0.4749 1 7 0.4302 0.2752 0.5769 0.6786 0.4544 0.3113 1 8 0.2756 0.2795 0.5057 0.4171 0.3054 0.4878 0.453 1 9 0.4205 0.2948 0.3121 0.3266 0.4436 0.3035 0.3107 0.3136 1 10 0.4136 0.3205 0.4963 0.5199 0.4668 0.4712 0.4786 0.4756 0.3885 1 11 0.3806 0.6614 0.2835 0.4386 0.3376 0.6055 0.2991 0.2855 0.4523 0.4948 1 12 0.3132 0.6614 0.2835 0.2843 0.2894 0.2812 0.2991 0.2855 0.4523 0.4948 1 1 13 0.287
文档评论(0)