网站大量收购闲置独家精品文档,联系QQ:2885784924

运用ESL模型对通用图形处理器(GPGPU)进行的能耗分析.docVIP

运用ESL模型对通用图形处理器(GPGPU)进行的能耗分析.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
运用ESL模型对通用图形处理器(GPGPU)进行的能耗分析   摘 要通过在不同的CPU和GPGPU体系结构上执行并行归并排序算法,运用ESL模型分析不同体系结构的性能和能耗,得出CPU和GPU合并是处理器设计的正确趋势的结论。   【关键词】通用图形处理器 GPGPU ESL模型 能耗分析 处理器设计   1 简介   现代的图形处理单元(GPUs)的特点是具有更大量的相对简单的处理单元,这些大量的处理单元可以用来处理高并行度的通用任务。这种在GPU上进行通用计算(也被称为GPGPU计算)的尝试,使得GPU在未来的高性能计算机系统中成为相对于传统微处理器更吸引人的选择。由于GPGPU核心在非常低的频率上运行,因此其对能耗要求不高。另外,GPGPU的使用使得集成专用硬件(如图像处理器、视频稳定器)不再必须,从而降低了芯片的成本。   然而,我们还不能确定GPGPU平台是否能降低所有并行算法的能耗。GPGPU带来的能耗收益值得我们花费额外的成本把GPU集成在芯片上吗?另外,这种所谓的GPGPU平台是不是总能获得最好的性能和最低的能耗呢?特定体系结构在不同排列(orientations)下的具体能耗又如何呢?为了快速探究体系结构的这些有趣问题,我们决定使用电子系统层级模型(ESL)来高层次地抽象我们的系统。ESL模型是一种新兴的电子设计方法,主要关注更高抽象层次的问题,可以极其有效地在实际设计之前确定体系结构的特征。   这个项目中,我们建立了两个简单的GPGPU模型,将OpenRISC处理器整合到一个完整的片上系统(SOC)模型中。两个模型都通过松散同步(loosely-timed)事务模型实现,这使我们使用单核算法进行一系列的系统结构探究。我们用来衡量能耗的的单核算法是归并排序算法。通过统计评估软硬件整体的性能和功耗,我们比较了单核CPU、多核CPU、GPU以及Intel的CPU-GPU加速,接着我们就可以确定哪个平台是最好的。   2 GPGPU体系结构   2.1 系统概览   我们在实验性片上系统中使用的CPU核心是32位OpenRISC1200(OR1200)的CPU核心模型。每个核心都按照Harvard体系结构配置,并与64Kbytes的I-cache和D-cache连接。一个缓存一致的系统连接到所有的缓存库,使得最多32核可以在共享内存模式上一致地运行。如图1所示。   为了在体系结构探索中实现快速的时间模拟,所有元件都通过松散同步的TLM模拟器实现。OR1200核心作为OR1200指令集模拟器(ISS)执行。我们还加入了直接内存访问来方便排除故障。   这里我们提出GPGPU系统的两种不同结构,差别在于CPU和GPGPU连接的方法。第一种结构将GPGPU模型作为一个硬件加速器与一级系统总线相连。这个结构中,GPGPU模型拥有自己的图形RAM,但是也可以通过外设被CPU访问。GPGPU核心不被允许访问系统总线。这个结构的优点是GPU不能向总线发送垃圾信息,从而降低了总线的通信争夺(traffic contention)。但是,为了实现GPGPU运算,CPU需要额外的时间和能耗将数据从GPU的RAM复制到主存。   第二种结构将CPU和GPU紧密连接在一起,共享一个一致的缓存系统。GPGPU中没有存储,CPU和GPU使用相同的SRAM。这个结构使CPU与GPU间的通信更快,但有可能在两者都访问内存时增加通信争夺。   2.2 GPGPU的核心体系结构   GPGPU模型有大量适合进行图形处理的相对简单的核构成。由于时间因素,我们没有实现图形和SIMD执行单元,只是实现了通用的算数执行单元,因为我们只对它的通用应用感兴趣。如图2所示。   我们提出的GPGPU的核心体系结构是在建立在一个叫作名义处理器(nominal processor)的简单处理器基础之上的。名义处理器是一个32位RISC核心,拥有16个寄存器和大约30条基本指令。这些名义指令只允许拥有一个目的操作数和一个源操作数。因此,名义指令集架构可以用16位字宽编码。同时,为了实现快速模拟,GPGPU核心的实现也遵循松散同步的工业标准规格(ISS)。总线多路复用器和GPU的SRAM都在相对高层次的抽象下实现。对于每个GPU核心,一个小的总线多路复用器与之相连,它将GPU的存储器映射地址分为三组,编码、数据、私有。特别的,在TLM的实现中,我们定义了三个插口启动器(socket initiator),编码和数据与全局共享内存连接,私有启动器与它的私有内存目标相连。我们将一个GPU核心、一个总线多路复用器和一个私有内存定义为一个核心单元。如图3所示。   简单起见,GPGPU程序必须避免内存一致性问题。编译器有职责确保共享内

文档评论(0)

kaku + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8124126005000000

1亿VIP精品文档

相关文档