网站大量收购闲置独家精品文档,联系QQ:2885784924

《计算机系统结构》02中央处理器.pptxVIP

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
;2.1 CPU组成 2.2 数据表示 2.3 指令优化 2.4 指令集 2.5 时钟频率 2.6 并行 2.7 多核技术; 2.1 CPU组成;(1)控制器。其任务是负责从存储器中取出指令,确定指令的类型,并对指令进行译码,控制整个计算机系统一步一步地完成各种操作。 (2)运算器。为计算机提供计算与逻辑功能,控制器把数据带给ALU后,就根据指令完成算术运算或逻辑判断及逻辑运算。 (3)寄存器(Register)。它是处理器内部的存储单元,控制器中的寄存器,用于保存程序运行中的状态,存储当前指令信息和将要执行的下一条指令的地址等。运算器中的寄存器,用于存储进行运算与比较的数据及其结果。; 2.2 数据表示;数据表示:由硬件直接辨识的数据类型; 2.3 指令优化;2.3.1 指令格式优化;例?2-1:某计算机有7条指令(I1~I7)使用频率Pi从30%~6%。请给出这7条指令的哈弗曼编码。;2.3.1 指令格式优化;2.3.1 指令格式优化;2.3.1 指令格式优化;2.3.2 指令系统分析; 2.4 指令集;2.4.1 RlSC和CISC;2.4.2 RISC-V; 2.5 时钟频率;2.5 时钟频率;这种设计实现了CPU时钟频率的进一步提高(仅需要提高倍频即可),并同时保持其与其他外部设备的同步工作。例如,系统总线的时钟频率为100 MHz,CPU的时钟频率则能够达到4 GHz甚至更高。 提升CPU的时钟频率是提升CPU性能最直接的方法,但是时钟频率并不是可以无限提升的,与CPU的架构、制造工艺直接相关。更高的时钟频率会导致CPU的功耗和发热量呈指数速率增长,从而迅速超过系统散热能力的最大允许范围。 改进架构和实现各层面上的并行则是现代CPU提升性能的主要方式,如增加CPU的内核数,而主频一般在1~3GHz。 内核数能无限提升吗?; 2.6 并行;2.6.1 指令级并行;2.6.2 线程级并行;2.6.3 数据并行和SIMD指令集合; 2.7 多核技术;2.7 多核技术;2.7 多核技术; 2.8 CPU内部互连;2.8.1 早期的星形总线与跨Socket互连;2.8.2 Intel 环形总线架构;2.8.2 Intel 环形总线架构;2.8.3 Intel Mesh总线架构; AMD 的模块化思想体现为两大组件,由若干CPU内核组成的CCX(Core Complex,内核复合体)和实现CCX之间互连的Infinity Fabric总线。 CPU内核位于CCX的四角,L2缓存和L3缓存则被排布到4个内核的正中间,L3缓存由4个内核内部共享,速度???步于最高的内核。同时,4个内核之间采用全连接的方式,访问延迟极低。;; 2.9 CPU外部互连;2.9 CPU外部互连; 在Bloomfield中,由于集成了内存控制器,所以CPU直接与内存相连,大大降低了内存访问延迟,同时Intel采用了新的QPI总线连接北桥取代之前的FSB。; 2.10 OpenMP多线程并行编程;2.10 OpenMP多线程并行编程;OpenMP的编程模型介绍;2.10.1 编译制导语句;2.10.1 编译制导语句;2.10.2 API 函数; 二维数组的运算一般采用双层for循环。本例题很简单,显然数组计算的行和行之间没有数据相关。可以使用2种方法实现: 1、将计算以行为单位逐行分配到各个线程进行并行计算。 2、将数组按行平均分给各线程,但是这些行是连续的。这样做的好处是使并行计算的粒度比较大,可以减少调度开销。 下面的例程就是使用的方法2。;例程代码;例程代码;2.10.2 API 函数;2.11 GPU;2.11.1 GPU简介;2.11.2 GPU硬件结构;2.11.2 GPU硬件结构;2.11.3 GPU的存储层次;2.12 CUDA;2.12.1 CUDA简介;2.12.2 线程管理; CUDA编程中最重要的是定义CUDA核函数。根据题意,核函数需要完成的任务是:根据传入的A数组,计算对应行从下标1至999号元素的和,并将结果存储在第0号元素。首先根据块索引(blockIdx.x)和块内线程索引(threadIdx.x)确定需要处理的行号(lineID),然后再实现计算功能。接着根据CUDA编程的一般流程,编写主函数功能。;例程代码--核函数;例程代码--主程序;2.13OpenMP-CUDA混合编程;2.13 openmp-cuda 混合编程; CUDA核函数部分与例2-4相同;在主函数中,由OpenMP开启4个CPU线程,并根据线程号执行不同的操作:由0号CPU线程管理GPU实现计算;1-3号CPU线程直接进行计算。为了方便GPU在多线程环境中使用cudaMemcpy将结果回写至数组A,我

您可能关注的文档

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档