网站大量收购闲置独家精品文档,联系QQ:2885784924

生物信息学中的机器学习方法.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

生物信息学中的机器学习方法

摘要:生物信息学是一门交叉学科,包含了生物信息的获取、管理、分析、解释和应用等方面,兴起于人类基因组计划。随着人类基因组计划的完成与深入,生物信息的研究工作由原来的计算生物学时代进入后基因组时代,后基因组时代中一个最重要的分支就是系统生物学。本文从信息科学的视角出发,详细论述了机器学习方法在计算生物学和系统生物学中的若干应用。

关键词:生物信息学;机器学习;序列比对;人类基因组;生物芯片

1.相关知识

1.1生物信息学

生物信息学时生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它综合运用生物学、计算机科学和数学等多方面知识与方法,来阐明和理解大量生物数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。

生物信息学主要有三个组成部分:建立可以存放和管理大量生物信息学数据的数据库;研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具;使用这些工具去分析和解释不同类型的生物学数据,包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达以及生化途径等。

生物信息学这个术语从20世纪90年代开始使用,最初主要指的是DNA、RNA及蛋白质序列的数据管理和分析。自从20世纪60年代就有了序列分析的计算机工具,但是那时并未引起人们很大的关注,直到测序技术的发展使GenBank之类的数据库中存放的序列数量出现了迅猛的增长。现在该术语已扩展到几乎覆盖各种类型的生物学数据,如蛋白质结构、基因表达和蛋白质互作等。

目前的生物信息学研究,已从早期以数据库的建立和DNA序列分析为主的阶段,转移到后基因组学时代以比较基因组学(comparativegenomics)、功能基因组学(functionalgenomics)和整合基因组学(integrativegenomics)为中心的新阶段。生物信息学的研究领域也迅速扩大。生物信息学涉及生物学、计算机学、数学、统计学等多门学科,从事生物信息学研究的工作者或生物信息学家可以来自以上任何一个领域而侧重于生物信息学的不同方面。事实上,我们今天正需要具备各种背景知识、才能和研究思路的研究人员,集思广益来共同面对生物信息学给我们带来的这史无前例的挑战。

1.2机器学习

机器学习是人工智能研究较为年轻的分支。学习是人类所具有的一种重要的智能行为,但究竟什么是学习,长期以来没有一个明确的定义。同样对于什么叫机器学习?至今我们仍不能给出一个唯一的定义。总的来说,机器学习就是通过学习获得经验,并以经验来修正系统的过程。我们也可给出稍微严格的提法:机器学习是一门研究及其获取新知识和新技能,并识别现有知识的学问,我们这里所说的极其,指的就是电子计算机,但以后可能是种子计算机、光子计算机甚至是神经计算机。

学习是一种复杂的与智能相关的活动,学习的过程是与推理过程紧密联系的。按照学习中使用推理的多少,其学习策略大体可分为4种:机械学习,通过传授学习,类比学习,通过实例学习。学习中所用推理越多,系统的能力也就越强。

环境向系统的学习部分提供某些信息,学习部分利用这些信息修改知识库,以增进系统执行部分完成任务的效能,执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分。在具体的应用中,环境,知识库和执行部分决定了具体的工作内容,学习部分所需要解决的问题完全由上述3部分确定。这三部分也既是机器学习系统的基本结构。

2.生物信息学研究方向

生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点。

2.1序列比对

序列比对(SequenceAlignment)的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据(probedata)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列,比较两个或多个序列的相似性,在数据库中有哪些信誉好的足球投注网站相关序列和子序列,寻找核苷酸(nucleotides)的连续产生模式,找出蛋白质和DNA序列中的信息成分。序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似

目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法。早期的科学方法——观测和假设,面对高数据的体积、快速的数据获取率和客观分析的要求,已经不能仅依赖于人的感知来处理了。因而,生物信息学与机器学习相结合也就成了必然。

机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息。机器学习与模式识别和统计推理密切相

文档评论(0)

139****9477 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档