网站大量收购闲置独家精品文档,联系QQ:2885784924

创新型多核处理器发展.docVIP

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
创新型多核处理器发展

创新型多核处理器发展   布线延迟将影响目前主流商用超标量和VLIW技术的长远发展。目前,一些新型多核处理器结构初露端倪,它们依赖于开发指令级并行性以外的其他更粗粒度的并行性,如数据级并行性和线程级并行性,以实现更高性能和应用效能。   仅靠扩充目前占主流的超标量和VLIW技术,要实现新一代处理器是十分困难的,其中一个主要原因是布线延迟问题。随着芯片制造技术的发展,一个时钟周期中信号在芯片内所能传输的范围越来越小。特别当未来采用35纳米以下设计技术时,在一个时钟周期内信号所能传输的范围仅为芯片面积的1%。在采用传统架构的处理器中,为使信号传遍芯片的各个角落往往需要很大的延迟,在进行距离最远的两点间通信时,会产生数十个周期的延迟,因而引起性能的急剧下降。为此,在考虑未来5~10年的处理器设计时,必须从结构设计顶层就充分考虑布线延迟问题。这要求体系结构和微体系结构进行根本的变革。      目前,一些新型CMP结构初露端倪,它们依赖于开发指令级并行性以外的其他更粗粒度的并行性,如数据级并行性和线程级并行性,以实现更高性能和应用效能。      Tile 结构处理器      我们把无布线延迟问题的小尺寸功能块,按一定规则排列构成高速处理器的方式称为Tile结构。这种方式由于受到小尺寸功能块的制约,可以大大减轻在Tile内部产生的布线延迟问题。此外,由于信息传输仅在物理位置相距很近的几个Tile间进行,因而也使Tile间的通信延迟得以缓解。   Tile结构与超标量处理器最大的不同就在于,Tile处理器是由多个采用相同设计的功能块按一定规则排列构成的,其功能部件主要有计算单元、Tile间连接布线和路由器等。它与采用总线或环网连接的多核处理器有许多共同点,然而其设计思想却有很大差别。多核处理器尽量沿用了传统处理器设计技术,只是对高速缓存和互连网络进行了优化以谋求更高的性能。而Tile处理器为了克服布线延迟,在传统处理器从未采用过的Tile内部结构上下足了工夫,即在芯片上配置多个结构完全相同的Tile单元,以提高设计的可重用性,减轻验证等作业的负担。这种Tile结构大多采用在增加Tile单元数时,不降低工作频率的就近连接网络。      旨在提高大量视频和音频数据处理速度的专用多媒体处理器,也有采用类似Tile结构这种将多个处理器配置于二维网格结构的。然而,Tile结构面临的最大挑战是,作为通用处理器它必须能高效地处理各种应用。为了有效利用与传统处理器有很大差异的Tile结构,多数Tile处理器采用了独特的指令集结构,因而放弃了与传统的CISC和RISC处理器的代码互换性。此时,应用程序要用C或Fortran等高级语言描述,并用独特的编译器生成Tile处理器专用的目标代码。下面介绍两种典型的Tile结构处理器。      1)Raw处理器   美国马萨诸塞大学正在开发的Raw处理器可以说是Tile结构的先驱,除克服布线延迟外,用活Tile结构丰富的硬件资源,充分利用处理器有限的管腿也是Raw追求的目标。目前,Raw正在进行芯片试制和系统级评价。   如图1所示,Raw处理器由16个结构相同的Tile单元构成,而每个Tile单元由近似MIPS处理器的单指令发射内部处理计算流水线和静态、动态网络构成。每个Tile单元可作为具有独立程序计数器的处理器工作,当指令或数据缓存发生错误时,则从配置在芯片外的主存获取数据。      Tile单元间的通信必须借助寄存器,所有布线均被设计为短于Tile单元单边的长度。因此,即使是根据应用的性能要求或可用晶体管数的提高,而增加集成的Tile单元数也不会降低芯片的工作频率。假使试制芯片经过每个Tile单元时产生1个周期的延迟,则右下Tile单元要使用左上Tile单元生成的数据,会产生6个周期的通信延迟。   Tile单元中的运算流水线由8级指令流水线构成,每条运算流水线都采用单指令发射的简单结构。尽管一个Tile单元每个时钟周期只能处理一条指令,但16个Tile单元可同时进行运算,因而每个芯片一个时钟周期就可完成16条指令的处理,从而达到较高的峰值性能。   为了缩短Tile单元间的通信延迟,在运算流水线的数据通路中嵌入了专门的通信机构,这样无需特殊指令就可进行Tile单元间的数据传送。   Raw处理器的硬件结构十分精炼,即使对最复杂的通信和计算也能提供可明确描述的指令集,在运算流水线的数据通路上还设有专门的通信机构,从而大大缩短了Tile单元间必要的通信延迟。         2) TRIPS处理器   IBM和德克萨斯大学也正在开发一款采用Tile结构的TRIPS处理器。该处理器由网状配置的多个运算结点(Tile单元)构成,其运算结点则由单指令发射的简单整

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档