计算机体系结构第4章课件.ppt

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机体系结构第4章课件

4.5 向量处理机实例 系统型号 推出时间 最大配置,时钟周期, 操作系统/编译系统 特色和要点 ETA 10E 1985年 单处理机,10.5ns,ETAV/FTN 200 Cyber 205的后继型号 NEC SX-X/44 1991年 每台处理机4组流水线,4台处理机,2.9ns,F77SX Fujitsu VP2600/10 1991年 5条流水线的单处理机和双标量处理机,3.2ns,MSP.EX/F77 EX/VP 使用可重构微向量寄存器和屏蔽 Hitachi 820/80 1988年 512MB存储器,18个流水线功能部件的单处理机,4ns,FORT 77/HAP V23-OC 64个I/O通道,最大传输率为288MB/秒 4.5 向量处理机实例 Cray Y-MP 816 1991年问世 系统结构图 可以配置1台、2台、4台或8台处理机 8个CPU共享中央存储器、I/O 子系统、处理机通信子系统和实时时钟 CPU的时钟周期:6ns 中央存储器 分成256个交叉访问的存储体 通过每个CPU对4个存储器端口的交叉访问可以实现对存储器的重叠存取。 4.5.2 Cray Y-MP和C-90 4.5 向量处理机实例 容量最大可达1GB。固态存储器的容量最大可达4GB。 4个存储器访问端口允许每个CPU同时执行两个标量和向量取操作、一个存储操作和一个独立的I/O操作。 这些并行的存储器访问也采用流水线方式,使得向量读和向量写可以同时进行。 CPU的计算系统由14个功能部件组成,分为向量、标量、地址和控制4个子系统。 向量和标量指令可以并行地执行 所有算术运算都是“寄存器-寄存器”类型 向量指令可以使用14个功能部件中的8个 4.5 向量处理机实例 系统使用了大量地址寄存器、标量寄存器、向量寄存器、中间寄存器和临时寄存器。 通过对寄存器及多体存储器和算术/逻辑流水线的使用,可以实现功能流水线灵活的链接。 浮点和整数算术运算都是64位。 大型指令高速缓存可同时存放512条16位的指令。 主机中的处理机之间的通信系统包括用于快速同步目的的共享寄存器群。 每个群由共享地址寄存器、共享标量寄存器和信号灯寄存器组成。 CPU之间向量数据通信是通过共享存储器实现的。 I/O子系统支持3类通道,传输速率分别:6MB/s,100MB/s和1GB/s。 4.5 向量处理机实例 C-90 由16个类似于Y-MP的CPU组成 16台处理机共享主存储器的容量高达256M字 (2GB) SSD存储器的容量最多达16GB 可选作第二级主存储器 两条向量流水线和两个功能部件可以并行操作,每个时钟周期能产生4个向量计算结果。 意味着每台处理机有4路并行性,因此16台处理机每个时钟周期最多可以产生64个向量计算结果。 4.5 向量处理机实例 运行UNICON操作系统,提供向量化的FORTRAN 77和C编译器。 64路并行性和4.2ns时钟周期相配合,可使系统的峰值性能达到16GFLOPS,系统最大1/O吞吐率为13.6MB/s。 4.5 向量处理机实例 NEC 1991年推出 峰值速度可达到22GFLOPS 主要措施之一:使用了基于VLSI和高密度封装技术的2.9ns的时钟 系统结构图 4台运算处理机通过共享寄存器或通过2GB的共享存储器进行通信。 每台处理机有4组向量流水线 每组包括2条加法/移位流水线和2条乘法/逻辑流水线 类似于C-90,4台处理机可达到64路并行 4.5.3 NEC SX-X44 4.5 向量处理机实例 高速标量部件 采用了具有128个标量寄存器的RISC系统结构,通过把指令重新排序来开发较高的并行性。 主存储器为1024路的交叉访问存储器 其扩展存储器的最大容量高达16GB 最大传输率:2.75GB/s 系统最多可以配置4台I/O处理机 每台I/O处理机的数据传输率:1GB/s 最多可以提供256个通道,用于高速网络、图形和外围操作,支持100MB/s的通道传输。 4.3 提高向量处理机性能的常用技术 a:存储字到“读功能部件”的传送时间 b:存储字经过“读功能部件”的通过时间 c:存储字从“读功能部件”到V0分量的传送时间 d:V0和V1中操作数到整数加功能部件的传送时间 e:整数加功能部件的通过时间 f:和从整数加功能部件到V2分量的传送时间 g:V2中的操作数分量到移位功能部件的传送时间 h:移位功能部件的通过

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档