网站大量收购独家精品文档,联系QQ:2885784924

分片式处理器上均匀一致cache的设计与优化.pdf

分片式处理器上均匀一致cache的设计与优化.pdf

  1. 1、本文档共87页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分片式处理器上均匀一致cache的设计与优化

摘要 摘 要 分片式处理器能够很好地应对纳米工艺代芯片设计中存在的功耗、线延迟和 设计复杂性问题,充分地利用日益增长的片上晶体管资源以提升应用的性能,但 对其上的Cache设计提出了新的要求。一方面,需要有分片式的Cache结构以满 足大量执行单元的并发访存需求;另一方面,需要有分布式内存依赖解析机制以 保证分布式的访存顺序。与传统的全局控制的Cache结构相比,非均匀一致Cache 结构(NUCA,Non.UniformCacheArchitecture)能够满足上述要求,更好地适 应分片式处理器体系结构。本文设计了分片式处理器上的非均匀一致的二级和一 级Cache结构,并根据分片式处理器中特有的访存特征对非均匀一致的一级 Cache的结构进行优化,提出了Load本地化执行模型,最终评估了模型的性能 和开销。该研究工作对分片式处理器上Cache结构的设计具有一定的指导意义。 本文对非均匀一致二级和一级Cache的设计和优化均基于实验室所研究的 ProcessorArchitecture.ProcessorFor 分片式处理器.指令级并行核(TPA.PI,Tiled 包括:静态数据映射方式,片上网络互连,CacheBank内部结构,Cache事务处 理逻辑,以及Cache流水线。并使用C语言编写了面向硬件实现的TPA.PI的二 级Cache模拟器。该部分亦可以作为普适的静态非均匀一致Cache的设计实例。 题,进行了相关的设计优化。首先剖析了结构中的访存行为特征,并根据Load 指令数据端和发射端不一致的情况,分析其中可能获得的性能提升潜力,据此设 计了Load本地化执行的优化模型,并设计了多种拷贝策略和一致性维护策略以 控制拷贝和Store广播的开销。(3)从功能和时序模拟两个方面评估了Load本 地化执行模型的性能和开销。经实验观测,基本模型可以获得平均5.72%的性能 提升,拷贝开销对于Cache命中率的影响并不大,而Store广播开销才是更为影 响模型性能的因素。 通过在TPA-PI上对非均匀一致Cache的应用进行研究,我们得到如下认识。 (1)非均匀一致二级Cache的设计与TPA—PI处理器结构的耦合度较低,适于单 独设计;(2非均匀一致一级Cache的设计与TPA.PI的处理器结构及执行模型 紧密相联,在分布式机制中减少路由延迟和通信开销是提高性能的关键。 Load本地化执行模型 关键词:线延迟分片式处理器结构非均匀一致Cache ABSTRACT arededicatedto the of Whiletiled target processorwhichpromoteperformance transistor withthe withthe resources,couldcope applicationsincreasingon-chip like arisesintheeraof power chiptechnology,such problems llano-scope ofhowto the design chanlengesdesign consumption,wiredelay,andcomp

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档