2016年数学建模竞赛B题.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2016年数学建模竞赛B题

2016年全国研究生数学建模竞赛B题 具有遗传性疾病和性状的遗传位点分析 人体的每条染色体携带一个DNA分子,人的遗传密码由人体中的DNA携带。DNA是由分别带有A,T,C,G四种碱基的脱氧核苷酸链接组成的双螺旋长链分子。在这条双螺旋的长链中,共有约30亿个碱基对,而基因则是DNA长链中有遗传效应的一些片段。在组成DNA的数量浩瀚的碱基对(或对应的脱氧核苷酸)中,有一些特定位置的单个核苷酸经常发生变异引起DNA的多态性,我们称之为位点。染色体、基因和位点的结构关系见图1. 在DNA长链中,位点个数约为碱基对个数的1/1000。由于位点在DNA长链中出现频繁,多态性丰富,近年来成为人们研究DNA遗传信息的重要载体,被称为人类研究遗传学的第三类遗传标记。 大量研究表明,人体的许多表型性状差异以及对药物和疾病的易感性等都可能与某些位点相关联,或和包含有多个位点的基因相关联。因此,定位与性状或疾病相关联的位点在染色体或基因中的位置,能帮助研究人员了解性状和一些疾病的遗传机理,也能使人们对致病位点加以干预,防止一些遗传病的发生。 近年来,研究人员大都采用全基因组的方法来确定致病位点或致病基因,具体做法是:招募大量志愿者(样本),包括具有某种遗传病的人和健康的人,通常用1表示病人,0表示健康者。 对每个样本,采用碱基(A,T,C,G)的编码方式来获取每个位点的信息(因为染色体具有双螺旋结构,所以用两个碱基的组合表示一个位点的信息);如表1中,在位点rs100015位置,不同样本的编码都是T和C的组合,有三种不同编码方式TT,TC和CC。类似地其他的位点虽然碱基的组合不同,但也只有三种不同编码。研究人员可以通过对样本的健康状况和位点编码的对比分析来确定致病位点,从而发现遗传病或性状的遗传机理。 表1. 在对每个样本采集完全基因组信息后,一般有以下的数据信息 (以6个样本为例,其中3个病人,3个健康者): 样本编号 样本健康状况 染色体片段位点名称和位点等位基因信息 rs100015 rs56341 ... rs21132 1 1 TT CA ... GT 2 0 TT CC ... GG 3 1 TC CC ... GG 4 1 TC CA ... GG 5 0 CC CC ... GG 6 0 TT CC ... GG 注:位点名称通常以rs开头。 染色体 染色体 基因 位点 图1. 染色体、基因和位点的结构关系. 本题目针对某种遗传疾病(简称疾病A)提供1000个样本的信息,这些信息包括这1000个样本的疾病信息、样本的9445个位点编码信息,以及包含这些位点的基因信息。这些信息包含在附录中的2个文件(phenotype.txt , genotype.dat)和1个文件夹gene_info(包含300个文件)中。 phenotype.txt文件中包含了样本具有遗传疾病A的信息,即一列0和1组成的数据,其中共有500个0,500个1,表示我们现在共有1000个样本,其中500个0就是500个没患有疾病A的人,500个1就是有500个患有遗传病A的人。如同表一中的第二列。 genotype.dat文件中包含了上述1000个样本在某条染色体片段上所有的位点信息。该文件总共有1001行,9445列。如同上表1中第三列到第六列的编码信息。具体来说,第一行表示9445个位点的名称,都是以字母rs开头的;接下来,有1000行,每一行表示一个样本在该条染色体片段上所有位点(9445个位点)的编码信息。例如,该文件中第2行,就表示1号样本在该条染色体片段上9445个位点的编码信息。 文件夹gene_info中包含了300个dat文件,表示300个基因的信息;每个dat文件中包含了若干个位点的名称,表示该基因包含的位点信息,事实上,可以把基因理解为若干个位点组成的集合。注意到在genotype.dat文件中已包含所有位点的编码信息,所以我们可以得到每一个基因所包含位点的编码信息。例如gene_1.dat,表示基因gene_1包含了rs3094315, rs3131972,..., rs4040617,共7个位点。 另外,人体的许多遗传疾病和性状是有关联的,如高血压,心脏病、脂肪肝和酒精依赖等。科研人员往往把相关的性状或疾病放在一起研究,这样能提高发现致病位点或基因的能力; 附录中的multi_phenos.txt文件中提供了上述1000个样本的10种相关性状的信息。文件中的每一列表示一个性状,每一行对应一个样本。文件中的0和1信息同phenotype.txt文件。 所有这些文件都可以利用Notepad++软件打开。装好notepad++后,当需要打开某个数据文件时,先点击该文件,然后点击右键,屏幕出现菜单,其中一栏是“edit with notepad

文档评论(0)

peain + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档