加速海啸模拟.PDF

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
加速海啸模拟.PDF

设计解决方案 加速海啸模拟 作者:日本东北大学副教授 Kentaro Sano 挑战 海啸模拟将物理过程模拟与大量深海数据相结合。这些计算通常在大规模并行超级计算 机上完成,但具有硬件利用率低和性能差的缺陷。 解决方案 通过硬件浮点 FPGA 加速模拟内循环可实现高达 383 GFLOPS 的性能,能效超过 8.4 † GFLOPS/瓦 。 项目 设计团队 我们需要高性能且低功耗的计算解决方案,以借助真实的深海数据集来执行海啸模拟。 Sano 教授就职于日本东北大学(日本仙 这需要在有限的外部内存带宽下,实现有效计算并高效利用浮点运算单元。 台)计算机与数学科学系,主要从事并行 模拟工作使用人们所熟知的浅水方程组,这是一组偏微分方程,描述流体流动对压力波 可重构计算方面的研究。他的团队通过应 的响应。我们提供实际测深数据(靠近海岸时测得的有关海洋的深度信息)作为求解程序 用 FPGA 和 GPU 来加快解决要求严苛的 的输入值。 物理问题。 设计挑战 海啸模拟通常使用具备多核处理器与众核加速器(如图形处理单元 (GPU ))的超级 计算机来执行。通过计算节点上的大量芯片上内核,基于软件的并行计算可实现高性 能模拟。 但此类基于软件的大规模并行计算通常受到内存带宽不足的限制,效率非常低,尤其是 在具有低运算密度的算法中,问题极为突出。运算密度是指运算数量与必须从外部内存 加载的数据量之比,表示为每单元数据大小执行的运算数量,通常为 FLOP/字节。由于 每个处理器具有固有的峰值运算性能 (GFLOPS )与可用外部内存带宽(每秒千兆字节 (Gbps ))之比,因此当算法的运算密度较低时,可持续性能通常受到内存带宽的限制。 因此,在计算内核性能、性能功耗比和性能价格比方面,此类内存受限计算的效率非常 低。虽然有一些技术可提高部分特定算法的运算密度,如旨在提高缓存内存中数据重用 效率的时间阻塞等,但是从根本上来说,CPU 或 GPU 的固定内存子系统不支持在芯片 上的内核之间实现理想的数据移动。例如,即使我们应该直接将数据从一个内核移动到 另一个内核,CPU 和 GPU 也需要从共享缓存内存读取/写入数据,或将数据读取/写入 至共享缓存内存。 设计解决方案 | 加速海啸模拟 设计解决方案 我们根据深度流水化和粗粒度并行性,通过 FPGA 为高性能海 啸模拟设计定制计算单元,并在芯片上实现性能可扩展性。通过 海啸模拟的计算表示为有限差分算法的模板计算(stencil 流水化,在每次访问内存时,我们可以执行大量运算,在此基础之 computation)

文档评论(0)

tangtianbao1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档