- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计 算 机 系 统 应 用 2011 年 第 20 卷 第 1 期
GPU 上的矩阵乘法的设计与实现①
梁娟娟,任开新,郭利财,刘燕君
( 中国科学技术大学 计算机科学与技术学院,合肥 230027)
摘 要: 矩阵乘法是科学计算中最基本的操作,高效实现矩阵乘法可以加速许多应用。本文使用NVIDIA 的CUDA
在 GPU 上实现了一个高效的矩阵乘法。测试结果表明,在 Geforce GTX 260 上,本文提出的矩阵乘法的速度是
理论峰值的 97%,跟 CUBLAS 库中的矩阵乘法相当。
关键词: 矩阵乘法;GPU ;CUDA
Design and Implementation of Matrix Multiplication on GPU
LIANG Juan-Juan, REN Kai-Xin, GUO Li-Cai, LIU Yan-Jun
(School of Computer Science and Technology, University of Science and Technology of China, Hefei 230027, China)
Abstract: Matrix multiplication is a basic operation in scientific computing. Efficient implementation of matrix
multiplication can speed up many applications. In this paper, we implement an efficient matrix multiplication on GPU
using NVIDIA’s CUDA. The experiment shows that our implementation is as fast as the implementation in CUBLAS,
and the speed of our implementation can reach the peak speed’s 97%, on Geforce GTX260.
Keywords: matrix multiplication; GPU; CUDA
GPU 是一种高性能的众核处理器,可以用来加速 用着色语言设计了在 GPU 上的矩阵乘法。CUBLAS
许多应用。CUDA 是 NVIDIA 公司为NVIDIA 的GPU 库是使用 CUDA 实现的 BLAS 库,里面包含了高性
开发的一个并行计算架构和一门基于 C 的编程语言。 能的矩阵乘法。
在CUDA 中程序可以直接操作数据而无需借助于图形 本文剩下的部分组织如下,第 2 节介绍了 CUDA
系统的 API 。现在已经有许多应用和典型算法使用 的编程模型,简单描述了 CUDA 上编程的特点。第 3
CUDA 在 GPU 上实现出来。 节讨论了数据已经拷贝到显存上的矩阵乘法,首先根
据矩阵分块的公式给出了一个朴素的矩阵乘法实现,
1 引言 分析朴素的矩阵乘法的资源利用情况,然后提出了一
矩阵乘法是科学计算中的最基本的操作,在许多 种新的高效的矩阵乘法。第 4 节讨论了大规模的矩阵
领域中有广泛的应用。对于矩阵乘法的研究有几个方 乘法的设计和实现,着重讨论了数据在显存中的调度。
向。一个是研究矩阵乘法的计算复杂度,研究矩阵 第 5 节是实验结果。第 6 节是总结和展望。
乘法的时间复杂度的下界,这方面的工作有 strassen
算法[1]等。另外一个方向是根据不同的处理器体系结 2 CUDA编程模型和矩阵乘法回顾
构,将经典的矩阵乘法高效的实现出来,这方面的 2.1 CUDA 编程模型
结果体现在许多高效的 BLAS 库。许多高效的 BLAS
您可能关注的文档
- EM算法及HMM参数估计20081003.pdf
- EPP高速数据采集及LabVIEW接口实现.pdf
- EPP总线和试验箱简介.doc
- 波士顿矩阵及经典案例分析.pdf
- ETM早教管理软件幻灯教程-如何进行排课与课程管理.ppt
- 波特五种力量竞争模型和其拓展形式比较分析.pdf
- eviews图像和结果分析.doc
- Excel 2003 VBA中的集合、对象、属性与方法介绍.pdf
- Excel 2013 数据排序、筛选、高级筛选PDF版.pdf
- 波特性法WCM及线性特征法MOC分析结果比较.pdf
- 2024-2030全球直接膨胀空气处埋器行业调研及趋势分析报告.docx
- 2024年全球及中国AI动画视频生成器行业头部企业市场占有率及排名调研报告.docx
- 2024年全球及中国无卤免清洗焊膏行业头部企业市场占有率及排名调研报告.docx
- 2024年全球及中国医药级机器人行业头部企业市场占有率及排名调研报告.docx
- 2024-2030全球住宅用门铰链行业调研及趋势分析报告.docx
- 2024年全球及中国三相交流负载箱行业头部企业市场占有率及排名调研报告.docx
- 2024-2030全球非接触式26G高频雷达物位计行业调研及趋势分析报告.docx
- 2024-2030全球风冷型永磁调速器行业调研及趋势分析报告.docx
- 2024-2030全球rU 亚磷酰胺行业调研及趋势分析报告.docx
- 2024-2030全球压力平衡式蒸汽疏水阀行业调研及趋势分析报告.docx
最近下载
- 中医养生预防脑血管疾病的措施(3).pptx
- 教育部2024年专项任务项目(高校辅导员研究)申请评审书《增强高校辅导员与学生谈心谈话的针对性和实效性研究》.docx VIP
- YBJ-PS03-2004埋地无压预制混凝土排水圆形管管基及接口.pdf
- 家校社协同育人教联体典型案例(幼小中).doc
- 智慧教育双师课堂解决方案.pdf
- DL∕T 1949-2018 -火力发电厂热工自动化系统电磁干扰防护技术导则.pdf
- 2023云南昆明空港投资开发集团招聘7人考前自测高频考点模拟试题(共500题)含答案详解.docx
- 营销三大法宝-销售带动配合-PPT课件.ppt
- 人教版本历史七下第3课(开元盛世)课件3.ppt
- 2025考研英语一真题及答案.pdf
文档评论(0)