网站大量收购闲置独家精品文档,联系QQ:2885784924

确定肿瘤的重要基因信息..doc

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
确定肿瘤的重要基因信息.

全国第七届研究生数学建模竞赛 题 目 确定肿瘤的重要基因信息 摘 要: 随着生物分子学的发展,人们已经发现癌症与基因之间存在密切关系。 本文通过对比基因表达谱中不同样本的表达水平的差别,区分出无关基因和信息基因,在信息基因的空间中有哪些信誉好的足球投注网站分类能力强的特征子集,然后将所有样本划分为训练集和测试集,使用支持向量机SVM和人工神经网络检查特征子集的分类能力。其次,再考虑噪声的定义,以及如何去除噪音,并分析噪声对特征子集分类能力的影响。最后,生成特征子集的时候需要考虑已有的医学发现,提出基于知识库的基因图谱分析模型KFS模型,有效利用了医学成果。 第一问,利用巴氏距离模型和理想基因模型区分无关基因和相关基因,剔除基因表达谱中无关基因,达到降维的效果。 第二问,使用FSSM算法在信息基因空间里寻找出候选特征子集,然后将样本划分为训练集和测试集,使用支持向量机SVM和人工神经网络,对FSSM有哪些信誉好的足球投注网站出来的特征子集的分类能力进行判定。本文得到由5个信息基因组成的特征子集,样本分类正确率达到95.79%。 第三问,考虑了阈值滤波和主成分分析两种去噪模型,并阐述噪音模型在高斯过程分类器的构建中的作用,最后论述噪音能够在学习算法中防止过渡拟合从而可以孵化出泛化能力更强的分类器用于确定基因标签。 第四问,提出基于知识库的基因图谱分析模型KFS模型,该模型在引入信息基因知识库的基础上,对基因图谱进行去噪处理、样本评价函数增益、剔除无关基因,并采用基于知识库的KFSSM算法获得特征子集,最后分别采用SVM及ANN方法获取信息基因集合。本文最后对已知临床经验的结肠癌数据进行处理得到一组信息基因组合,样本分类正确率达到94.52%。 关键词:基因表达谱,信息基因,巴氏距离,FSSM,噪声,KFS模型 一、问题重述 癌症起源于正常组织在物理或化学致癌物的诱导下,基因组发生的突变,即基因在结构上发生碱基对的组成或排列顺序的改变,因而改变了基因原来的正常分布(即所包含基因的种类和各类基因以该基因转录的mRNA的多少来衡量的表达水平)。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。 DNA微阵列(DNA microarray),也叫基因芯片,是最近数年发展起来的一种能快速、高效检测DNA片段序列、基因表达水平的新技术。它将数目从几百个到上百万个不等的称之为探针的核苷酸序列固定在小的(约1)玻璃或硅片等固体基片或膜上,该固定有探针的基片就称之为DNA微阵列。根据核苷酸分子在形成双链时遵循碱基互补原则,就可以检测出样本中与探针阵列中互补的核苷酸片段,从而得到样本中关于基因表达的信息,这就是基因表达谱,因此基因表达谱可以用一个矩阵或一个向量来表示,矩阵或向量元素的数值大小即该基因的表达水平(见附件)。 随着大规模基因表达谱 ( Gene?expression?profile?,或称为基因表达分布图) ?技术的发展,人类各种组织的正常的基因表达已经获得,各类病人的基因表达分布图都有了参考的基准,因此基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题。如果可以在分子水平上利用基因表达分布图准确地进行肿瘤亚型的识别,对诊断和治疗肿瘤具有重要意义。因为每一种肿瘤都有其基因的特征表达谱(见附图)。从DNA?芯片所测量的成千上万个基因中,找出决定样本类别的一组基因“标签”,即“信息基因” (informative genes?)是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也为抗癌药物的研制提供了捷径。 通常由于基因数目很大,在判断肿瘤基因标签的过程中,需要剔除掉大量“无关基因”,从而大大缩小需要有哪些信誉好的足球投注网站的致癌基因范围。事实上,在基因表达谱中,一些基因的表达水平在所有样本中都非常接近。例如,不少基因在急性白血病亚型(ALL,AML)两个类别中的分布无论其均值还是方差均无明显差别,可以认为这些基因与样本类别无关,没有对样本类型的判别提供有用信息,反而增加信息基因有哪些信誉好的足球投注网站的计算复杂度。因此,必须对这些“无关基因”进行剔除。1999 年《Science》发表了Golub 等针对上述急性白血病亚型识别与信息基因选取问题的研究结果[1] 。Golub 等以“信噪比”(Signal to noise ratio) 指标作为衡量基因对样本分类贡献大小的量度,采用加权投票的方法进行亚型的识别,仅根据72个样本就从7 129 个基因中选出了50 个可能与亚型分类相关的信息基因。Golub 的工作大大缩小了决定急性白血病亚型差异的基因范围,给出了亚型识别的基因依据,富有创造性。Guyon 等则利用支持向量机的方法再从中选出了8个可能的信息基因[2]。 但信噪比肯定不是衡量基因对样本分类贡献大小的唯一标准,肿瘤是致癌基因、抑癌基因、促癌基

文档评论(0)

jiulama + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档