- 1、本文档共113页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * * * 优化的流水线 tC max {tIM, tRF, tALU, tDM, tRW} = tDM tC max {tIM, tRF+tALU, tDM, tRW} = tDM 存储器操作耗时最多,因此其它耗时少的级可以合并 回写时间很短,通常可以合并到存储器操作流水级 tC max {tIM, tRF+tALU, tDM+tRW} = tDM+ tRW ??increase the critical path by 10% write -back phase fetch phase execute phase decode Reg-fetch phase memory phase addr wdata rdata Data Memory we ALU Imm Ext 0x4 Add addr rdata Inst. Memory rd1 GPRs rs1 rs2 ws wd rd2 we IR PC tIM = 10 units tDM = 10 units tALU = 5 units tRF = 1 unit tRW = 1 unit * 5级流水线的执行 假设tIM≈tRF≈tALU≈tDM≈tRW time t0 t1 t2 t3 t4 t5 t6 t7 . . . . instruction1 IF1 ID1 EX1 MA1 WB1 instruction2 IF2 ID2 EX2 MA2 WB2 instruction3 IF3 ID3 EX3 MA3 WB3 instruction4 IF4 ID4 EX4 MA4 WB4 instruction5 IF5 ID5 EX5 MA5 WB5 Write -Back (WB) I-Fetch (IF) Execute (EX) Decode, Reg. Fetch (ID) Memory (MA) addr wdata rdata Data Memory we ALU Imm Ext 0x4 Add addr rdata Inst. Memory rd1 GPRs rs1 rs2 ws wd rd2 we IR PC * 流水线的执行:ALU指令 IR IR IR 31 PC A B Y R MD1 MD2 addr inst Inst Memory 0x4 Add IR Imm Ext ALU rd1 GPRs rs1 rs2 ws wd rd2 we wdata addr wdata rdata Data Memory we 每级流水线需要指令寄存器IR,控制相应环节的操作 流水线的局限性 各阶段性能差异会导致流水线性能下降 寄存器延迟开销导致流水线性能下降 硬件空闲 延迟=?ps 吞吐量=?GIPS 延迟=360ps 吞吐量=5.88GIPS 指令流水线设计 深度(depth)或并行度(degree of parallelism)即流水级数m 等待时间(latency) 每一作业从开始到结束所需时钟周期数,=m 理想流水线: 各级延时时间相等; 无等待时间; 大量代码不断流; 吞吐率(Throughput Rate) 吞吐率Tp:指单位时间内能完成的作业量。 最大吞吐率Tpmax:流水线达到稳定状态后的吞 吐率。 用于描述流水线执行各种运算的速率,通常表示为每秒执行的运算数或每周期执行的运算数。 若一个m级线性流水线各级时长(即拍长)均为Δt,则连续处理n条指令时的实际吞吐率Tp为: 可以看出,当n→?时,最大吞吐率Tpmax=1/ Δt 理想流水线,大量代码 加速比(Speedup Ratio) 非流水线执行时间相对流水线执行时间之比。 若一个m级线性流水线各级时长(即拍长)均为Δt,则连续处理n条指令时的加速比Sp为: 可以看出,当 n→?时,Sp→m,即最大加速比等于流水线的段数m。 效率(Efficiency) 一定时段内,流水线所有段处于工作状态的比率。 若一个m级线性流水线各级时长(即拍长)均为Δt,则连续处理n条指令时的效率E为: E =指令完成时间内占用的时空区 /指令总时空区 可以看出,当 n→?时,E→1,即流过流水线的指令越多,流水线效率越高。 ARM体系结构 1。RISC指令集,内核小,功耗低、成本低 2。哈佛结构 3。运算器操作数只能从寄存器输入/输出 4。采用桶式移位器处理ALU输入,灵活高速 8086体系结构 1。冯式结构 2。运算器操作数可以从寄存器、存储器或I/O端口获得 3。分成两大功能部件EU、BIU * ARM指令编码格式 Opcode:指令操作码。 co
文档评论(0)