【体系结构课件】指令级并行的开发——软件方法.PPT

【体系结构课件】指令级并行的开发——软件方法.PPT

  1. 1、本文档共89页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章 指令级并行的开发 ——软件方法 主讲:李悦芳 TELEMAIL:lyfw1@163.com 长江师范学院应用技术学院 ;6.1 基本指令调度及循环展开 6.2 跨越基本块的静态指令调度 6.3 静态多指令流出:VLIW技术 6.4 显式并行指令计算EPIC 6.5 开发更多的指令级并行 6.6 实例:IA-64体系结构 ;指令调度:找出不相关的指令序列,让它们在流水线上重叠并行执行。 制约编译器指令调度的因素 程序固有的指令级并行 流水线功能部件的延迟; 表6.1本节使用的浮点流水线的延迟 ;;6.1 基本指令调度及循环展开;6.1 基本指令调度及循环展开;6.1 基本指令调度及循环展开;循环展开 把循环体的代码复制多次并按顺序排放, 然后相应调整循环的结束条件。 开发循环级并行的有效方法 例6.2 将例6.1中的循环展开3次得到4个循环体,然后对展开后的指令序列在不调度和调度两种情况下,分析???码的性能。假定R1的初值为32的倍数,即循环次数为4的倍数。消除冗余的指令,并且不要重复使用寄存器。 ;展开后没有调度的代码如下(需要分配寄存器); 调度后的代码如下:;6.1 基本指令调度及循环展开;概述 目标:在保持原有数据相关和控制相关不变的前提下,尽可能地缩短包含分支结构的代码段的总执行时间。 单流出处理器——减少指令数 多流出处理器——缩短关键路径长度 基本思想:在循环体内的多个基本块间移动指令,扩大那些执行频率较高的基本块的体积。;6.2 跨越基本块的静态指令调度;6.2 跨越基本块的静态指令调度;6.2 跨越基本块的静态指令调度;6.2 跨越基本块的静态指令调度;概述 踪迹(trace):程序执行的指令序列,通常由一个或多个基本块组成,trace内可以有分支,但一定不能包含循环。 踪迹调度(trace scheduling)会优化执行频率高的trace,减少其执行开销。由于需要添加补偿代码以确保正确性,那些执行频率较低的trace的开销反而会有所增加。 踪迹调度非常适合多流出处理器。 ;踪迹调度的步骤 分为两步:踪迹选择和踪迹压缩 踪迹选择 从程序的控制流图中选择执行频率较高的路径,每条路径就是一条trace。 处理转移成功与失败概率相差较大的情况 循环结构:循环展开 分支结构:根据典型输入集下的运行统计信息;踪迹选择——实例分析;踪迹压缩 对已生成的trace进行指令调度和优化,尽可能地缩短其执行时间; 跨越trace内部的入口或出口调度指令时必须非常小心,有时还需要增加补偿代码 。;踪迹调度的性能特点 踪迹调度能够提升性能的最根本原因在于选出的trace都是执行频率很高的路径,减少它们的执行开销有助于缩短程序的总执行时间。 对于某些应用,补偿代码引起的开销很有可能降低踪迹调度的优化效果。 踪迹调度会大大增加编译器的实现复杂度。;概述 在踪迹调度中,如果trace入口或出口位于trace内部,编译器生成补偿代码的难度将大大增加,而且编译器很难评估这些补偿代码究竟会带来多少性能损失。 超块(superblock)是只能拥有一个入口,但可以拥有多个出口的结构 超块的构造过程与trace相似,但怎样确保只有一个入口?;超块构造——尾复制技术;超块调度的性能特点 尾复制技术简化了补偿代码的生成过程,并降低了指令调度的复杂度。 超块结构目标代码的体积也大大增加。 补偿代码的生成使得编译过程更加复杂,而且由于无法准确评估由补偿代码引起的时间开销,这限制方法超块调度的应用范围。;VLIW vs. 超标量 在动态调度的超标量处理器中,相关检测和指令调度基本都由硬件完成。 在静态调度的超标量处理器中,部分相关检测和指令调度工作交由编译器完成。 在VLIW处理器中,相关检测和指令调度工作全部由编译器完成,它需要更“智能”的编译器。;实例分析 ;6.3 静态多指令流出——VLIW技术;VLIW性能分析 VLIW目标代码编码效率低 为消除流水线“空转”需要增加循环展开的次数 很难从应用程序中找到足够多的并行指令填满VLIW指 令中的每一个slot VLIW流水线的互锁机制 VLIW处理器中没有实现任何相关检测逻辑,而是靠互 锁机制保证执行结果的正确 这种简单的互锁机制将造成较大的开销 目标代码兼容性差 二进制翻译;性能比较——多流出处理器 vs. 向量处理器 即使对于一些结构不规则的代码,多流出处理器也能从中挖掘出一些指令级并行。 多流出处理器对存储系统没有过高的要求,价格较便宜、由Cache和主存构成的多层次存储子系统即可满足其对性能的要求。;超标量和VLIW结构都存在严重不足 超标量硬件复杂度太高,8流出成为极

文档评论(0)

精品资料 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档