加速海啸模拟.PDFVIP

下载本文档

5
0
约1.18万字
约 4页
2017-05-21 发布于天津
举报
版权申诉

加速海啸模拟.PDF

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

加速海啸模拟.PDF

设计解决方案加速海啸模拟作者：日本东北大学副教授 Kentaro Sano 挑战海啸模拟将物理过程模拟与大量深海数据相结合。这些计算通常在大规模并行超级计算机上完成，但具有硬件利用率低和性能差的缺陷。解决方案通过硬件浮点 FPGA 加速模拟内循环可实现高达 383 GFLOPS 的性能，能效超过 8.4 † GFLOPS/瓦。项目设计团队我们需要高性能且低功耗的计算解决方案，以借助真实的深海数据集来执行海啸模拟。 Sano 教授就职于日本东北大学（日本仙这需要在有限的外部内存带宽下，实现有效计算并高效利用浮点运算单元。台）计算机与数学科学系，主要从事并行模拟工作使用人们所熟知的浅水方程组，这是一组偏微分方程，描述流体流动对压力波可重构计算方面的研究。他的团队通过应的响应。我们提供实际测深数据（靠近海岸时测得的有关海洋的深度信息）作为求解程序用 FPGA 和 GPU 来加快解决要求严苛的的输入值。物理问题。设计挑战海啸模拟通常使用具备多核处理器与众核加速器（如图形处理单元（GPU ））的超级计算机来执行。通过计算节点上的大量芯片上内核，基于软件的并行计算可实现高性能模拟。但此类基于软件的大规模并行计算通常受到内存带宽不足的限制，效率非常低，尤其是在具有低运算密度的算法中，问题极为突出。运算密度是指运算数量与必须从外部内存加载的数据量之比，表示为每单元数据大小执行的运算数量，通常为 FLOP/字节。由于每个处理器具有固有的峰值运算性能（GFLOPS ）与可用外部内存带宽（每秒千兆字节（Gbps ））之比，因此当算法的运算密度较低时，可持续性能通常受到内存带宽的限制。因此，在计算内核性能、性能功耗比和性能价格比方面，此类内存受限计算的效率非常低。虽然有一些技术可提高部分特定算法的运算密度，如旨在提高缓存内存中数据重用效率的时间阻塞等，但是从根本上来说，CPU 或 GPU 的固定内存子系统不支持在芯片上的内核之间实现理想的数据移动。例如，即使我们应该直接将数据从一个内核移动到另一个内核，CPU 和 GPU 也需要从共享缓存内存读取/写入数据，或将数据读取/写入至共享缓存内存。设计解决方案 | 加速海啸模拟设计解决方案我们根据深度流水化和粗粒度并行性，通过 FPGA 为高性能海啸模拟设计定制计算单元，并在芯片上实现性能可扩展性。通过海啸模拟的计算表示为有限差分算法的模板计算（stencil 流水化，在每次访问内存时，我们可以执行大量运算，在此基础之 computation）