- 1、本文档共99页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物序列分析算的研究及其应用
摘要
摘要
随着人类基因组计划的完成,人们获得了大量的生物学数据。在对这些生物
数据进行处理和分析的过程中,涌现出了大量的数学问题。这些数学问题亟需通
过有效的计算手段进行解决。
DNA和蛋白质研究是分子生物学中两项核心的研究课题,我们针对DNA和
蛋白质序列分析中出现的一些数学问题进行研究。单体型是一些特定的DNA位
点组成的序列。单体型分析可以帮助我们了解基因与疾病之间的关联,这在遗传
疾病的研究方面具有重要意义。模体是一些保守的DNA片段,模体发现对基因
转录及其调控的研究很有帮助。蛋白质的空间结构决定了它的功能,基于蛋白质
序列,我们可以对蛋白质的结构进行预测,从而为病毒检测以及生物制药等研究
提供帮助。本文围绕单体分型、模体发现和蛋白质结构预测等问题展开研究,主
要的研究内容包括:
(1)提出一种群体数据集上的单体分型算法 由于成本的限制,单体型难以
通过实验手段大量获得。但是单体型可以利用基因型数据通过计算手段进行求
解,其中分块-合并策略被广泛地应用于多个算法中,用以提高算法的效率。在
传统的分块一合并策略中,分块是均匀的,但很多研究表明单体型具有特有的块
结构,分块并不均匀。基于此我们统计不同位点间的关联强度,并使用动态规划
算法设计了更合理的分块策略,利用贪心算法对相邻分块进行合并,我们将新的
分块.合并策略其应用于EM单体分型算法中。
(2)提出一种家系数据集上的单体分型算法 近来,通过一些新的生物实验
手段,可以获得一种新类型的数据——异或基因型。基于异或基因型的单体分型
成为一项新的研究课题。研究者们对群体数据集上基于异或基因型的单体分型算
法做了很多研究,但基于家系数据的研究还很少。基于完美进化树模型,我们将
家系上的异或基因型分型问题转化为图论中的图实现问题进行求解,家系结构为
问题求解提供了更多的约束,使得问题有更大的概率获得唯一解。
(3)提出一种序列模体发现算法模体在转录因子绑定及蛋白质间相互作用
d)模体
中起着重要作用,对它的发现会有助于我们了解基因的功能。植入(fJ
发现是其中一类经典的问题,但不幸的是,这一问题是NP难解的。研究者们提
出了很多算法。由于问题的NP难解性,精确算法难以在有效时间内对其进行求
解。结合哈希表和剪枝策略,我们提出一种更有效的序列模体发现精确算法。
(4)提出一种蛋白质二级结构预测算法 蛋白质结构的确定对我们了解蛋白
质的功能至关重要。以往的蛋白质结构预测算法大多是基于序列以及数据库比较
摘要
的。我们结合化学位移信息和蛋白质序列来对蛋白质的二级结构进行预测。通过
NMR实验,我们可以获得蛋白质中每个氨基酸对应原子的化学位移信息。利用
这些化学位移信息,我们提出一种新的蛋白质二级结构预测算法。算法首先使用
KNN方法对蛋白质二级结构进行初步预测,之后在利用BCJR算法对预测结果
进行平滑。
按照研究内容分类,本文的贡献和创新之处在于:
(1)群体数据集单体分型 根据单体型固有的块结构,提出了一种更合理的
单体型分块.合并算法,并将其应用于群体数据集单体分型中,提高了分型的准
确性。
(2)家系数据集单体分型 基于一种新型的异或基因型数据,结合家系信息,
提出一个多项式时间的算法对单体型进行求解。和群体数据集相比,家系数据集
有更大概率获得唯一解。
(3)序列模体发现提出了一种新的序列模体发现算法,设计了一个完美哈
希函数,对解空间进行哈希,并在计算的过程中对不可能的解进行剪枝,和已有
的算法相比,该算法取得了更高的效率。
(4)蛋白质二级结构预测 基于化学位移数据和蛋白质序列,利用KNN方
法对蛋白质二级结构进行预测,并使用BCJR算法对结果进行平滑,和已有的算
法相比,该算法取得了较高的预测准确性。
关键词:生物信息学、单核苷多态性(SNP)、单体分型、模体发现、蛋白质二
级结构预测‘
Abstract
Abstract
mount
文档评论(0)