网站大量收购闲置独家精品文档,联系QQ:2885784924
  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
BPGPU教程

2.1.7 基于GPU的并行成像处理技术 (1) GPU并行处理简介 GPU即“图形处理器”。GPU是相对于CPU的一个概念,由于在现代的计算机中(特别是家用系统,游戏的发烧友)图形的处理变得越来越重要,需要一个专门的图形的核心处理器。GPU是显示卡的“心脏”,也就相当于CPU在 HYPERLINK /view/2358.htm \t _blank 电脑中的作用,它决定了显卡的档次和大部分性能,同时也是2D显示卡和3D显示卡的区别依据。 HYPERLINK /view/115346.htm \t _blank 2D显示芯片在处理 HYPERLINK /view/4376.htm \t _blank 3D图像和特效时主要依赖CPU的处理能力,称为“软加速”。3D显示芯片是将三维图像和特效处理功能集中在显示芯片内,也即所谓的“ HYPERLINK /view/1039397.htm \t _blank 硬件加速”功能。显示芯片通常是显示卡上最大的芯片(也是引脚最多的)。现在市场上的显卡大多采用NVIDIA和AMD两家公司的图形处理芯片。 目前GPU已经不再局限于3D图形处理了,GPU通用计算技术发展已经引起业界不少的关注,事实也证明在浮点运算、并行计算等部分计算方面,GPU可以提供数十倍乃至于上百倍于CPU的性能。而CUDA则是由NVIDIA于2006年提出的利用GPU实现通用计算的编程模型。 CUDA不需要借助专门的语言,而采用了比较容易掌握的类C语言进行开发。开发人员能够从熟悉的C语言比较平稳地从CPU过渡到GPU,从而不必重新学习语法,这是DSP和FPGA无法比拟的。而且,采用基于GPU的CUDA语言进行并行化设计,更容易操作,其运算能力依旧可以和DSP和FPGA相媲美。 CUDA被广泛应用于石油勘测、天文计算、流体力学模拟、分子动力学仿真、生物计算、图像处理、音视频编解码等领域,在很多应用中获得了很高的计算效率。 基于CUDA的并行化技术 在CUDA的架构下,一个程序分为两部分:主机端(Host)程序和设备端(Device)程序。主机端程序是指在CPU上执行的部分,而Device程序则是在GPU上执行的部分,即“Kernel”函数。一个完整的CUDA程序是由一系列的Device端Kernel函数并行步骤和Host端串行处理步骤共同组成。Host端将数据准备好后,通??PCI总线将数据拷贝到GPU内存中,由GPU执行Device程序,计算完成后再由Host端将数据从GPU中取回,其基本执行框图如下所示。 图2-124 CUDA编程模型 在一个Kernel函数中存在两个层次的并行,即Grid中的block间并行和block中的thread间并行,两层并行模型是CUDA编程的最重要特点之一。Kernel函数以线程网格(Grid)的形式组织,每个线程网格由若干个线程块(block)组成,而每个线程块又由若干个线程(thread)组成,一个块中的所有线程都必须位于同一个处理器核心中,因而一个处理器核心的有限存储资源制约了每个块的线程数量, Kernel函数实质上是以block为单位执行的,同一个block在同一个SM中发射,block中每一个线程被发射到一个SP上执行。 GPU中不同的存储器有不同的作用范围:线程作为CUDA语言的基本单位,具有独立的寄存器空间;线程块中互相合作的线程,可以通过共享存储器交换数据,线程块被拆分为若干线程束(warp),每个warp则包含32个线程,在每一指令时钟周期上warp内所有线程执行同一指令,但其针对不同的数据;而整个网格中的线程只能共享全局存储器、常数存储器和纹理存储器,合理利用各个存储器特点将会是运行速度显著提高。各个存储器的基本属性如下表所示。 表2-25 各种存储器比较 存储器位置空间速度生存周期寄存器GPU片内非常有限快同thread局部存储器板载显存有限慢同thread共享存储器GPU片内非常有限快同block常数存储器板载显存有限慢整个程序全局存储器板载显存大慢整个程序纹理存储器板载显存大慢整个程序 Tesla2070性能简介 NVIDIA(英伟达)Tesla C2070计算处理器用于并行计算,为台式机带来了小型集群般的性能。Tesla GPU的20系列产品家族基于代号为“Fermi”的下一代CUDA架构,支持技术与企业计算所“必备”的诸多特性,其中包括C++支持、可实现极高精度与可扩展性的ECC存储器以及7倍于Tesla 10系列GPU的双精度性能。Tesla C2070 GPU旨在重新定义高性能计算并实现超级计算的平民化。与必威体育精装版的四核CPU相比,Tesla C2070计算

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档