【体系结构课件】指令级并行的开发——软件方法.PPT

下载文档

58
0
约 89页
2017-09-26 发布于重庆
举报
版权申诉
保障服务

【体系结构课件】指令级并行的开发——软件方法.PPT

1、本文档共89页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第6章指令级并行的开发 ——软件方法主讲：李悦芳 TELEMAIL:lyfw1@163.com 长江师范学院应用技术学院 ;6.1 基本指令调度及循环展开 6.2 跨越基本块的静态指令调度 6.3 静态多指令流出：VLIW技术 6.4 显式并行指令计算EPIC 6.5 开发更多的指令级并行 6.6 实例：IA-64体系结构 ;指令调度：找出不相关的指令序列，让它们在流水线上重叠并行执行。制约编译器指令调度的因素程序固有的指令级并行流水线功能部件的延迟; 表6.1本节使用的浮点流水线的延迟 ;;6.1 基本指令调度及循环展开;6.1 基本指令调度及循环展开;6.1 基本指令调度及循环展开;循环展开把循环体的代码复制多次并按顺序排放，然后相应调整循环的结束条件。开发循环级并行的有效方法例6.2 将例6.1中的循环展开3次得到4个循环体，然后对展开后的指令序列在不调度和调度两种情况下，分析???码的性能。假定R1的初值为32的倍数，即循环次数为4的倍数。消除冗余的指令，并且不要重复使用寄存器。 ;展开后没有调度的代码如下(需要分配寄存器); 调度后的代码如下：;6.1 基本指令调度及循环展开;概述目标：在保持原有数据相关和控制相关不变的前提下，尽可能地缩短包含分支结构的代码段的总执行时间。单流出处理器——减少指令数多流出处理器——缩短关键路径长度基本思想：在循环体内的多个基本块间移动指令，扩大那些执行频率较高的基本块的体积。;6.2 跨越基本块的静态指令调度;6.2 跨越基本块的静态指令调度;6.2 跨越基本块的静态指令调度;6.2 跨越基本块的静态指令调度;概述踪迹（trace）：程序执行的指令序列，通常由一个或多个基本块组成，trace内可以有分支，但一定不能包含循环。踪迹调度（trace scheduling）会优化执行频率高的trace，减少其执行开销。由于需要添加补偿代码以确保正确性，那些执行频率较低的trace的开销反而会有所增加。踪迹调度非常适合多流出处理器。 ;踪迹调度的步骤分为两步：踪迹选择和踪迹压缩踪迹选择从程序的控制流图中选择执行频率较高的路径，每条路径就是一条trace。处理转移成功与失败概率相差较大的情况循环结构：循环展开分支结构：根据典型输入集下的运行统计信息;踪迹选择——实例分析;踪迹压缩对已生成的trace进行指令调度和优化，尽可能地缩短其执行时间；跨越trace内部的入口或出口调度指令时必须非常小心，有时还需要增加补偿代码。;踪迹调度的性能特点踪迹调度能够提升性能的最根本原因在于选出的trace都是执行频率很高的路径，减少它们的执行开销有助于缩短程序的总执行时间。对于某些应用，补偿代码引起的开销很有可能降低踪迹调度的优化效果。踪迹调度会大大增加编译器的实现复杂度。;概述在踪迹调度中，如果trace入口或出口位于trace内部，编译器生成补偿代码的难度将大大增加，而且编译器很难评估这些补偿代码究竟会带来多少性能损失。超块（superblock）是只能拥有一个入口，但可以拥有多个出口的结构超块的构造过程与trace相似，但怎样确保只有一个入口？;超块构造——尾复制技术;超块调度的性能特点尾复制技术简化了补偿代码的生成过程，并降低了指令调度的复杂度。超块结构目标代码的体积也大大增加。补偿代码的生成使得编译过程更加复杂，而且由于无法准确评估由补偿代码引起的时间开销，这限制方法超块调度的应用范围。;VLIW vs. 超标量在动态调度的超标量处理器中，相关检测和指令调度基本都由硬件完成。在静态调度的超标量处理器中，部分相关检测和指令调度工作交由编译器完成。在VLIW处理器中，相关检测和指令调度工作全部由编译器完成，它需要更“智能”的编译器。;实例分析 ;6.3 静态多指令流出——VLIW技术;VLIW性能分析 VLIW目标代码编码效率低为消除流水线“空转”需要增加循环展开的次数很难从应用程序中找到足够多的并行指令填满VLIW指令中的每一个slot VLIW流水线的互锁机制 VLIW处理器中没有实现任何相关检测逻辑，而是靠互锁机制保证执行结果的正确这种简单的互锁机制将造成较大的开销目标代码兼容性差二进制翻译;性能比较——多流出处理器 vs. 向量处理器即使对于一些结构不规则的代码，多流出处理器也能从中挖掘出一些指令级并行。多流出处理器对存储系统没有过高的要求，价格较便宜、由Cache和主存构成的多层次存储子系统即可满足其对性能的要求。;超标量和VLIW结构都存在严重不足超标量硬件复杂度太高，8流出成为极