培训-中科院计算所生物信息课题组.PPT

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
培训-中科院计算所生物信息课题组

生物信息处理专用计算机研究与开发 (曙光4000H)验收报告 徐志伟 中国科学院计算技术研究所 中国科学院北京基因组研究所 主要内容 课题研究背景 课题执行情况评价 取得的成果的水平和作用 研究队伍的建设和人才培养 组织管理工作 下一步工作设想 研究背景 人类基因组计划引爆生物信息的大发展 计算成为了生物学家的重要研究工具 蛋白质结构的预测 序列联配和序列拼接 用于生物信息学的计算计系统不断升级 普通的台式机 工作站、服务器 高性能的对称多处理器系统 大规模并行计算机系统 生物数据库的增长趋势及挑战 到2004年底GenBank中的DNA序列总量已超过445亿碱基对 相对增长量和绝对增长量都很大≈摩尔定律 庞大的基因数据库为更加准确地进行生物信息的分析提供了可能 算法的计算复杂度高 对计算能力提出了挑战 解决方案之一: 研制更复杂的通用巨型计算机系统 BlueGene/L: 65536颗700MHz主频的PowerPC440 360TFlops 未来的1年之内规模再增加一倍 分子动力学 通用系统的优缺点 利用通用型巨型机的优点 计算机用途广泛 程序移植方便 利用通用型巨型机的缺点 费用高 通用型巨型机的价格非常昂贵 维护费用高(电力、制冷、场地、管理等) 效率低 性能提高的速度难以跟上生物信息处理的需要 生物信息处理算法受计算机内硬件资源制约 生物信息学中算法的特点 生物信息学中还有很多算法(如各种基因组研究的算法)具有数据量较大、算法相对简单、并行度较高、运算类型单一、重复性较强的特点,许多计算过程都可以归类于字符串的查找和比对等简单操作。通常对字符进行操作只需要8~16位数据宽度,计算类型多为各种简单的逻辑运算和算术运算,无需浮点计算,但需要进行大量的判断和转移。 目前通用处理器的设计通常都采用32位或64位字长,集成有数个复杂的浮点计算单元,为了提高指令级并行一般都采用超标量技术,而为了提高系统的工作频率,几乎所有的通用处理器都采用了深度流水线技术。这些特点使得通用处理器在进行字符串操作时往往是英雄无用武之地,有些技术如深度流水线甚至会对计算带来负面影响,因为一旦发生转移预测失败,就需要清空流水线,因而会浪费很多时钟周期。因此,用现有的大规模并行机或超级服务器等通用系统解决这些问题,既浪费系统的资源,使用维护也比较复杂,有些问题甚至无法在限定的时间内完成。 解决方案之二: 研制专用的计算机系统 TimeLogic: All bacterial proteins (4,242 proteins sequences) were compared against 192 E. coli genomes (775 million symbols in 6- frames). DeCypherBLAST systems with 1 and 2 Engines complete the seach in 32 and 16 minutes respectively. The DeCypher systems were installed in a 2 CPU Dell server. An 8-CPU cluster requires over 1 week to complete the task (216 hrs). Results: For this search, DeCypher delivers the performance of 400-800 CPUs. 专用计算机系统的优缺点 利用专用硬件加速方案的优点 计算速度快、计算效率高 使用费用低 机器成本 维护费用低廉(功耗低、体积小) 利用专用硬件加速方案的缺点 程序移植困难 可重构计算将方便算法的硬件实现过程 几种算法的计算速度和数据质量比较 序列联配算法的加速方法 启发式算法 FASTA BLAST 这两种方法会损失敏感度 并行计算方法 把数据库分布在多个节点 使用MPI通讯 硬件加速计算方法 硬件加速的典型工作 R. J. Lipton和D. P. Lopresti在1985年观察到并指出,可以利用动态规划算法中隐含的并行性将其映射到一个脉动阵列结构中,并且可以通过恰当地设置编辑操作的分值以有效地简化每个PE的设计。 在此基础上,他们于1987年实现了P-NAC(Princeton Nucleic Acid Comparator)系统 91年加州理工的BISP(Biological Information Signal Processor) 91~93年布朗大学的B-SYS(Brown Systolic Array)和Splash 97~99年UCSC(Univ. of Cal. at Santa Cruz)开发了Ke

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档