- 1、本文档共89页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章 指令级并行的开发
——软件方法
主讲:李悦芳
TELEMAIL:lyfw1@163.com
长江师范学院应用技术学院
;6.1 基本指令调度及循环展开
6.2 跨越基本块的静态指令调度
6.3 静态多指令流出:VLIW技术
6.4 显式并行指令计算EPIC
6.5 开发更多的指令级并行
6.6 实例:IA-64体系结构
;指令调度:找出不相关的指令序列,让它们在流水线上重叠并行执行。
制约编译器指令调度的因素
程序固有的指令级并行
流水线功能部件的延迟; 表6.1本节使用的浮点流水线的延迟
;;6.1 基本指令调度及循环展开;6.1 基本指令调度及循环展开;6.1 基本指令调度及循环展开;循环展开
把循环体的代码复制多次并按顺序排放, 然后相应调整循环的结束条件。
开发循环级并行的有效方法
例6.2 将例6.1中的循环展开3次得到4个循环体,然后对展开后的指令序列在不调度和调度两种情况下,分析???码的性能。假定R1的初值为32的倍数,即循环次数为4的倍数。消除冗余的指令,并且不要重复使用寄存器。 ;展开后没有调度的代码如下(需要分配寄存器);
调度后的代码如下:;6.1 基本指令调度及循环展开;概述
目标:在保持原有数据相关和控制相关不变的前提下,尽可能地缩短包含分支结构的代码段的总执行时间。
单流出处理器——减少指令数
多流出处理器——缩短关键路径长度
基本思想:在循环体内的多个基本块间移动指令,扩大那些执行频率较高的基本块的体积。;6.2 跨越基本块的静态指令调度;6.2 跨越基本块的静态指令调度;6.2 跨越基本块的静态指令调度;6.2 跨越基本块的静态指令调度;概述
踪迹(trace):程序执行的指令序列,通常由一个或多个基本块组成,trace内可以有分支,但一定不能包含循环。
踪迹调度(trace scheduling)会优化执行频率高的trace,减少其执行开销。由于需要添加补偿代码以确保正确性,那些执行频率较低的trace的开销反而会有所增加。
踪迹调度非常适合多流出处理器。
;踪迹调度的步骤
分为两步:踪迹选择和踪迹压缩
踪迹选择
从程序的控制流图中选择执行频率较高的路径,每条路径就是一条trace。
处理转移成功与失败概率相差较大的情况
循环结构:循环展开
分支结构:根据典型输入集下的运行统计信息;踪迹选择——实例分析;踪迹压缩
对已生成的trace进行指令调度和优化,尽可能地缩短其执行时间;
跨越trace内部的入口或出口调度指令时必须非常小心,有时还需要增加补偿代码 。;踪迹调度的性能特点
踪迹调度能够提升性能的最根本原因在于选出的trace都是执行频率很高的路径,减少它们的执行开销有助于缩短程序的总执行时间。
对于某些应用,补偿代码引起的开销很有可能降低踪迹调度的优化效果。
踪迹调度会大大增加编译器的实现复杂度。;概述
在踪迹调度中,如果trace入口或出口位于trace内部,编译器生成补偿代码的难度将大大增加,而且编译器很难评估这些补偿代码究竟会带来多少性能损失。
超块(superblock)是只能拥有一个入口,但可以拥有多个出口的结构
超块的构造过程与trace相似,但怎样确保只有一个入口?;超块构造——尾复制技术;超块调度的性能特点
尾复制技术简化了补偿代码的生成过程,并降低了指令调度的复杂度。
超块结构目标代码的体积也大大增加。
补偿代码的生成使得编译过程更加复杂,而且由于无法准确评估由补偿代码引起的时间开销,这限制方法超块调度的应用范围。;VLIW vs. 超标量
在动态调度的超标量处理器中,相关检测和指令调度基本都由硬件完成。
在静态调度的超标量处理器中,部分相关检测和指令调度工作交由编译器完成。
在VLIW处理器中,相关检测和指令调度工作全部由编译器完成,它需要更“智能”的编译器。;实例分析 ;6.3 静态多指令流出——VLIW技术;VLIW性能分析
VLIW目标代码编码效率低
为消除流水线“空转”需要增加循环展开的次数
很难从应用程序中找到足够多的并行指令填满VLIW指
令中的每一个slot
VLIW流水线的互锁机制
VLIW处理器中没有实现任何相关检测逻辑,而是靠互
锁机制保证执行结果的正确
这种简单的互锁机制将造成较大的开销
目标代码兼容性差
二进制翻译;性能比较——多流出处理器 vs. 向量处理器
即使对于一些结构不规则的代码,多流出处理器也能从中挖掘出一些指令级并行。
多流出处理器对存储系统没有过高的要求,价格较便宜、由Cache和主存构成的多层次存储子系统即可满足其对性能的要求。;超标量和VLIW结构都存在严重不足
超标量硬件复杂度太高,8流出成为极
您可能关注的文档
- 【大学英语】The Media.ppt
- 【大学英语】Unit 5 Space Travel.ppt
- 【大学英语】Unit 7_Book Three.ppt
- 【大学英语】Unit 10 Business Strategies.ppt
- 【大学英语】University Requirements.ppt
- 【大学英语】安徽省普通高中新课程实验英语教学建议.ppt
- 【大学英语】初中英语试卷命题理论与技术.ppt
- 【大学英语】大学英语教学大纲.doc
- 【大学英语】大学英语教学改革 阶段总结汇报.ppt
- 【大学英语】大学英语教学改革发展趋势 及客观规律.ppt
- 山东省滕州第一中学2022-2023学年高一上学期期中(线上)数学试题.docx
- 四川省内江市第六中学2023-2024学年高二下学期期末考试数学试卷.docx
- 吉林省松原市乾安县2024-2025学年七年级上学期第一次月考英语试卷.docx
- 小学生主题班会通用版一年级新生入学教育(课件).pptx
- 海南省海口市2022-2023学年八年级上学期期末语文试题.docx
- 河南省浚县第一中学2022-2023学年高二上学期开学数学试题.docx
- 四川省乐山市峨边彝族自治县2022-2023学年七年级上学期期末语文试题.docx
- 广东省东莞市第四高级中学2024-2025学年高三上学期9月月考物理试题.docx
- 海南省海口市海口中学2023届高三二模数学试题(A卷).docx
- 第一次月考 (试题) -2024-2025学年六年级上册数学苏教版.docx
文档评论(0)