- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
蛋白质序列可视化
组员: 第一组
刘 洋 200910210305 材料学院
张吉楠 200910310326 机电学院
刘小芳 200910530133 信息学院
2011年8月1日~8月1日
Bayes判别分析法在基于第一种分类特征的基础上对序列进行分类,模型二采用BP神经网络的辨识模型分别基于后两种分类特征给出了相应的分类结果。模型三中提出了基于欧氏距离最大化的降维方法,有效地降低了分类特征向量的维数。随后给出了特征向量的显著性检验方法,当未知序列的特征向量中存在具有明显分类能力的特征向量时,就按照该特征对未知序列进行分类;若不存在,则可采用基于欧氏距离最小化的方法提取未知序列的综合特征向量,并由此再采用Bayes判别分析和BP神经网络的辨识模型进行分类。
对于不同的分类方法,我们先对训练样本进行训练,而后考察其仿真效果,基于单一分类特征的计算结果中,其中Bayes判别分析的样本回代准确率为100%。
对于模型一采用的Bayes判别分析法,当选取的判别函数中变量为20时,所得仿真正确率为100%,但交叉验证准去率仅为69.6%;通过逐步判别分析,判别函数中变量降为4,得到了仿真正确率和交叉验证准去率均为95.7%的满意效果。
利用上述方法可以较好地对未知蛋白质序列进行分类,随着蛋白质工程技术的发展和人类基因组计划的顺利进展, 对蛋白质空间结构与一级结构的关系的研究也变得更加紧迫和重要。这样, 无论对基础研究还是对实际应用来说, 根据蛋白质分子的氨基酸序列判别它是哪类蛋白质都具有重要的意义。
关键词: 蛋白质结构分类 特征向量 显著性检验 欧氏距离
1、问题的重述
生物信息学是一个较新的学科领域,通过综合运用生物学、信息学、统计学、数学等工具和手段,来阐明和理解生物数据,使之成为具有明确生物意义的生物信息,并通过对生物信息的查询、检索、比较和分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系。根据蛋白质序列的排列顺序和序列信息确定蛋白质的功能成为生物学研究重点。它的主要研究方法可分为两大类。虽然用实验的方法较为准确,但花费的时间长,而且很多蛋白质难以结晶,因而实验结果也受到技术和设备上的制约;相对而言,用理论计算的方法则可以避免这些缺点,所以发展基于蛋白质序列对结构和功能进行预测的模型成为必要。由于生物数据的复杂性和高维性,既不能以数字公式表示,也不能以逻辑公式表示,故对这些序列的研究大多是基于统计工具。此外,通过数据的可视化,帮助人们认识和理解生物序列,进而分析和解释数据,使人们从表面上看来是杂乱无章的海量数据中找出隐藏的规律。常用的生物数据可视化工具有语义镜技术、信息壁技术、基因调控网格等。同时,将经过数据挖掘工具得到的数据结果也以图形、图像的形式展现给用户,便于用户寻找数据间规律和关系。目前对于DNA(RNA)序列的二维和三维重构方面的工作已经取得较大的进展,但对于蛋白质等大分子在这方面的工作还有待于深入。此外,通过对蛋白质结构和功能的分析,能获取隐含其中的有用生物学信息,为我们理解生命、发现新药物和新疗法提供帮助。蛋白质是由20个氨基酸按不同排列构成,因此,蛋白质类型分析从某种意义上说就是对序列数据的挖掘。(1)请根据调查写一份关于对DNA可视化工作方面的科学报告。并且要求在阐明这项工作原理的基础上,重点强调它的意义和影响;报告要条理清晰,易读易懂,字数不少于800。(2)蛋白质序列由20氨基酸构成,设一个长度为L的蛋白质序列表示如下:P=R1R2...RL 其中,Ri表示蛋白质序列中第个出现的氨基酸,它是{A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、Y}中的某一个。如果利用正二十面体的每个面的方向向量代表20个氨基酸,请结合DNA可视化方面工作对我们的启发构造合适的对应关系和分析模型,以区别开如下两类不同的蛋白质序列,并画出部分序列的图形,以说明我们模型的特点和创造性
蛋白质分子是由20 种不同的氨基酸通过共价键连接而成的线性多肽链, 每一种蛋白质在天然条件下都有自己特定的结构。经过多年的研究, 由基因组 到RNA 再到多肽链合成的过程已经基本清楚。但以一定氨基酸顺序排列的多肽链是如何形成有一定结构的蛋白质分子的, 仍是分子生物学中目前还没有解决的问题。 由于蛋白质的功能与其结构密切相关, 蛋白质分子结构的知识已成为深入了解该蛋白质如何行使其生物功能的先决条件。目前已知氨基酸序列的蛋白质分子大约为20 万个, 而已知空间结构的蛋白质仅仅为8000 个左右。近年来, 随着蛋白质工程技术的发展和人类基因组计划的顺利进展, 对蛋白质空间结构
文档评论(0)