- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DNA序列数学建模论文
2015年“深圳杯”全国大学生数学建模竞赛
DNA序列
毛西露,陈洁
(重庆三峡学院,重庆万州404100;重庆三峡学院,重庆万州404100)
(联系方式联系方式
摘要:本文通过对DNA分子的研究分析,对其进行简单及更深入的分类。由提示,将20个DNA单分子链中“TAGC”数量及百分含量数学统计,并运用欧式和马氏距离判别分析分析,检验两种的准确性,选出较高优化的方式科学地把要求的DNA序列分为A类,B类,依据此方法完成后20个及182个自然DNA分子单链的分类。得出了所求20个人工制造序列及182个自然序列的分类结果如下:
(1)、20个人工序列:A类:21、24、26、28、30、31、32、33、38、40。
B类:22、23、25、27、29、34、35、36、37、39。
(2)经检验欧式优化度高,欧式进行对182个自然DNA分子分类:
A类:4、5、6、8、9、11、13、14、15、16、17、18、19、20、21、27、29、31、32、33、35、36、38、39、41、42、44、45、46、47、49、52、53、55、58、59、60、61、62、64、66、67、68、69、70、71、73、77、79、81、82、87、89、90、91、93、95、96、100、101、104、105、106、108、109、110、112、115、117、118、120、124、132、134、135、136、139、141、145、148、150、154、155、158、172、173、177.
B类:1、2、3、7、10、12、22、23、24、25、26、28、30、34、37、40、43、48、50、51、54、56、57、63、65、72、74、75、76、78、80、83、84、85、86、92、94、97、98、99、102、103、107、111、113、114、116、119、121、122、123、125、126、127、128、129、130、131、137、138、140、142、143、144、146、147、149、151、152、153、156、157、159、160、161、162、163、164、165、166、167、168、169、170、171、174、175、176、178、179、180、181、182。
一、 问 题 重 述
人类基因组计划中DNA全序列草图由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究发现DNA序列具有一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:
1)请从20个已知类别的人工制造的序列(其中序列标号1—10 为A类,11-20为B类)中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入)。
2)同样方法对182个自然DNA序列(它们都较长)进行分类,写出结果。
二、模型假设特定量的假设
简单的数量统计及提取:
对分析的及将要分析的所有DNA分子能将其分成A类、B类或不判断分类;
不考虑特殊密码子的变异问题及书写密码子的格式;
不考虑碱基序列的非编码区和编码区的区别;
题目中所给的样本信息量足够大。
三、特定符号的说明
特定量的假设:
Xij 表示第i条DNA单链分子中碱基j的百分比含量,其中j =1(表示碱基A的含量),2(表示碱基C的含量),3(表示碱基G的含量),4(表示碱基T的含量)。
Gi 表示由某些具有相同属性的个体组成的类
Κa 表示A类集合的几何中心
Κb 表示B类集合的几何中心样本
Da点到κa的欧氏距离样本
Db点到κb的欧氏距离
μa,a的均值 s1,a的协方差
μb b的均值,s2,b的协方差
您可能关注的文档
最近下载
- 统编版小学语文四年级上册第七单元 家国情怀 大单元整体学历案教案 教学设计附作业设计(基于新课标教学评一致性).docx
- 2024年八年级下册道德与法治期末复习核心考点提纲(部编版).pdf
- 农村土地租赁合同模板6篇.docx
- 2024年二年级上册数学人教版(假期作业).pdf
- 隶书发展起源.ppt
- SM-YK控制系统说明书.pdf
- 2024新牛津译林版英语七年级上册Unit 5 A healthy lifestyle大单元整体教学设计.docx
- 广州省一年级上册数学期末考试试卷.docx
- 统编版小学语文四年级上册第八单元 历史传说故事 大单元整体学历案教案 教学设计附作业设计(基于新课标教学评一致性).docx
- 屠宰污水处理项目可行性研究报告.doc
文档评论(0)