P的ascal架构的特性.docxVIP

下载本文档

0
0
约4.55千字
约 8页
2018-02-19 发布于浙江
举报
版权申诉

P的ascal架构的特性.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

P的ascal架构的特性

CUDA core and SMCUDA coreGP100’s SM incorporates 64 single-precision (FP32) CUDA Cores. In contrast, the Maxwell and Kepler SMs had 128 and 192 FP32 CUDA Cores, respectively. 相較於Fermi的CUDA Core數量，Kepler時代得益於製程，有爆發性的提升。比較GF 100、GF 110、GK 104、GK 110的CUDA Core數量，分別為480個、512個、1533個、2880個。可以认为在一个core上一次执行一个线程，GK110的一个SM有192个core，因此一次可以同时执行192个线程。core的内部结构可以查看[5]，实现算法一般不会深究到core的结构层面。SFU是特殊函数单元，用来计算log/exp/sin/cos等。DL/ST是指Load/Store，它在读写线程执行所需的全局内存、局部内存等。SMThe GP100 SM is partitioned into two processing blocks, each having 32 single-precision CUDA Cores, an instruction buffer, a warp scheduler, and two dispatch units.Fermi架构中每组SM单元的可执行线程数提高到了1024条，总线程执行能力则达到了24576条，如此多的线程数如何调度分配成了一大难题，为此NVIDIA引入了新的两级分配式（Two-level Distributed Thread Scheduler）线程调度机制。第一级是芯片级的，有个全局分配引擎负责将线程块(Thread Blocks)分配到每个SM单元中，这一过程较为简单。第二级的线程调度则是SM内部，需要将32条并行线程分配到具体执行单元中去，这一过程比较复杂，因此NVIDIA引入了Dual Warp Scheduler调度机制。warp scheduler一个SM有192个core，8个SM有1536个core，这么多的线程并行执行需要有统一的管理，假如gpu每次在1536个core上执行相同的指令，而需要计算这一指令的线程不足1536个，那么就有core空闲，这对资源就是浪费，因此不能对所有的core做统一的调度，从而设计了warp(线程束) scheduler。CUDA Core會接受來自Warp Scheduler的指令，以便執行某個執行緒（Thread）。在Fermi當中每個SM內有2組Warp Scheduler，負責該SM內32個CUDA Core要處理的執行緒，而這些執行緒就是所謂的Warp。Warp Scheduler關係到運算效率，畢竟排程排的好，能高度利用GPU的運算能力，排的不好那就讓指令遲遲等，那效率就是場悲劇。在Fermi中，每组SM中都包含两条warp 调度器和两个指令发送单元（保证两个warp调度器都可以同时发送和执行指令）。由于调度器各自独立运行，每个调度器都可以发送指令到16个CUDA核心、16个Load/Store单元以及4个SFU单元中去（正好是SM单元的一半），两个调度器互不依赖因此一个周期内即可发送一个warp，而G80/G200架构中需要两个周期才能完成一个warp，相比之下Fermi执行效率大幅提升。Dual Warp Scheduler的困难是双精度运算不支持这样的双向调度方式，好消息则是大多数指令如整数指令、浮点指令、整/浮混合指令、load（载入）、Store（存储）以及SFU指令都支持Dual Warp Scheduler，只要这两条指令是相同的。32个线程一组称为线程束，32个线程一组执行相同的指令，其中的每个thread称为lane。一个线程束接受同一个指令，里面的32个线程同时执行，不同的线程束可执行不同指令，那么就不会出现大量线程空闲的问题了。Branch divergence但是在线程束调度上还是存在一些问题，假如某段代码中有if…else…，在调度一整个线程束32个线程的时候不可能做到给thread0~15分配分支1的指令，给thread16~31分配分支2的指令(实际上gpu对分支的控制是，所有该执行分支1的线程执行完再轮到该执行分支2的线程执行)，它们获得的都是一样的指令，所以如果thread16~31是在分支2中它们就需要等待thread0~15一起完成分支1中的计算之后，再获得分支2的指令，而这个过程中，thread0～15又在等待thread16~31的工作完成，从而导致了线程空闲资源浪费。dispatch units而从ke