- 1、本文档共32页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
蛋白质可视分析
蛋白质序列可视化
摘要
DNA和蛋白质是生命中的两大核心物质,研究DNA和蛋白质序列对人类生命有重大意义。首先本文了一份关于DNA可视化工作方面的科学报告,从中阐述了它的工作原理和说明了它对研究DNA结构的影响和意义。其次对于蛋白质序列可视化方面,我们画出其在3D空间的曲线图(曲线的x、y轴坐标由Randic方法得到,z轴坐标由蛋白质序列中氨基酸的的累计个数得到),通过3D图形比较我们得出了蛋白质序列间的相同点和不同蛋白质之间序列的异同点。再次对于区别两类不同的蛋白质序列,我们画出第一、二类序列的3D曲线,取它的几何中心作为该序列的数值特征(3维向量),通过比较序列数值特征的欧式距离,我们来判断蛋白质的分类。在判断过程中,我们分别取第一、二类蛋白质前八个序列为学习样本,后三、四个序列为检验样本,通过比较前八个学习样本数值特征的平均值与检验样本数值特征间的欧式距离来判断蛋白质的分类。最后,本文对模型改进方面提出了些建议。
关键词:蛋白质序列 可视化 欧式距离
一 问题的重述
生物信息学是一个较新的学科领域,它涵概了对基因组信息的多个研究过程,通过综合运用生物学、信息学、统计学、数学等工具和手段,来阐明和理解生物数据,使之成为具有明确生物意义的生物信息,并通过对生物信息的查询、检索、比较和分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系。蛋白质是生命体赖以生存的营养要素,是细胞组织的重要组成部分,几乎所有的生物过程都与蛋白质发生某种联系。根据蛋白质序列的排列顺序和序列信息确定蛋白质的功能成为生物学研究重点。它的主要研究方法可分为两大类,其一是利用实际实验的方法来预测,包括X光绕射和核磁共振;其二则是利用理论计算的方法,包括同源建模法、折叠识别法以及从头预测法三种。虽然用实验的方法较为准确,但花费的时间长,而且很多蛋白质难以结晶,因而实验结果也受到技术和设备上的制约;相对而言,用理论计算的方法则可以避免这些缺点,所以发展基于蛋白质序列对结构和功能进行预测的模型成为必要。
由于生物数据的复杂性和高维性,既不能以数字公式表示,也不能以逻辑公式表示,故对这些序列的研究大多是基于统计工具。此外,通过数据的可视化,帮助人们认识和理解生物序列,进而分析和解释数据,使人们从表面上看来是杂乱无章的海量数据中找出隐藏的规律,为科学发现提供依据。所以,现在有些学者开始借助各种可视化工具,以图、树、方体、链的形式展现其复杂结构和序列模式,以求直观地表达生物序列的理论结构与区别。常用的生物数据可视化工具有语义镜技术、信息壁技术、基因调控网格等。同时,将经过数据挖掘工具得到的数据结果也以图形、图像的形式展现给用户,便于用户寻找数据间的规律和关系。
目前对于DNA(RNA)序列的二维和三维重构方面的工作已经取得较大的进展,但对于蛋白质等大分子在这方面的工作还有待于深入。此外,通过对蛋白质结构和功能的分析,能获取隐含其中的有用生物学信息,为我们理解生命、发现新药物和新疗法提供帮助。蛋白质是由20个氨基酸按不同排列构成,因此,蛋白质类型分析从某种意义上说就是对序列数据的挖掘。
(1)请根据你的调查写一份关于对DNA可视化工作方面的科学报告。要求在阐明这项工作原理的基础上,重点强调它的意义和影响;报告要条理清晰,易读易懂,字数不少于800。
(2)蛋白质序列由20氨基酸构成,设一个长度为L的蛋白质序列表示如下: 其中,表示蛋白质序列中第个出现的氨基酸,它是{A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、Y}中的某一个。如果利用正二十面体的每个面的方向向量代表20个氨基酸,请结合DNA可视化方面工作对你的启发构造合适的对应关系和分析模型,以区别开如下两类不同的蛋白质序列,并画出部分序列的图形(二维或三维均可,重点是要清楚讲明你的模型和想法,可参考CGR-游走序列的方法),以说明你模型的特点和创造性。(两类不同的蛋白质序列略)
说明:(1)“”后面是蛋白质序列的编号,也就是序列的“代号”;
(2)如果序列中有不是前面提到的20个字母中的(如:出现B,J,O,U,X,Z等),可以忽略;
(3)以给出的这两类序列来评估你的方法的有效性,即用你的方法得到的这两类序列分类的准确率;
(4)如果要用这种方法从图形上区别开这两类蛋白质,请画出你对这23个序列的图形,说明同一类的共同点和不同类的差异。
二 模型的假设
1、蛋白质序列中如果出现B,J,O,U,X,Z等字母,可以忽略不计;
2、一个蛋白质序列可以看做是在20个氨基酸的字母表上的字符串;
3、一个蛋白
文档评论(0)