[第五章系统性能评价1.ppt

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[第五章系统性能评价1

* 页跨划分边界:数据分布不好 P0 P1 P2 P3 P4 P5 P6 P7 (a)二维数组 页没有跨划分边界 P0 P1 P2 P3 P4 P5 P6 P7 (b)四维数组 ②例:偏微分方程空间局部性与存储分配粒度 ③使存储分配粒度和一致性粒度相对较大: 从分摊通信代价与硬件代价考虑的结果; 满足空间局部性随W和n变化的需求。 结果:不同存储层次的存储分配粒度不同; 一致性粒度一般不会很大,应与T附加权衡。 ④采用全相联映像解决部分冲突扑空: 全相联产生的代价远小于通信的代价。 * c.附加通信与固有通信之间的权衡 固有通信在任务划分阶段产生,其实现在协调阶段可能产生大量附加通信,两者间应在性能、代价方面充分权衡。 例:偏微分方程程序的域分解,究竟应采用块划分还是条划分? 条划分:固有通信略大,附加通信小(代价随存储层次结构改善明显减小); 块划分:固有通信略小,附加通信大(代价随存储层次结构改善不明显)。 测试结果:条划分性能优于块划分。 算法选择是附加通信与固有通信之间的权衡。 * (2)通信结构化来减少通信代价 a.通信结构性能参数: 通信模式、消息大小、通信突发程度、通信代价、通信与其他工作的重叠程度、通信模式与互连网络的匹配程度。 b.通信代价: c.通信结构化: 目标--减少通信量nc、降低通信开销m×t0、降低延迟m×tl、降低资源冲突m×tc、增加通信与其他工作的重叠toverlap。 实现—略(参见David E. Culler的《并行计算机体系结构》)。 * 4、协调的性能分析 (1)存储层次结构性能参数 容量、一致性粒度、关联度、存储分配粒度、层次管理方式等。 (2)数据局部性开发方法 时间局部性开发: 相同数据在同一进程,优先远程数据访问局部性开发,数据处理方法与存储层次结构特性相适应。 空间局部性开发: 同一PE的数据尽量靠近,大的传送粒度,充分利用存储层次结构的特性。 * (3)影响并行程序性能因素 T(n)=Tcomput+Tlocaldata+Tcomm+Tsynch+Tpara, Tcomm=T固有+T附加 影响Tcomput因素:分解算法、任务粒度、操作串行化程度、负载平衡与通信/同步代价的权衡(冗余计算); 影响Tlocaldata因素:存储层次结构、数据局部性开发; 影响T固有因素:分解算法、任务粒度、负载平衡与通信代价的权衡(有利因素)、附加通信与固有通信的权衡; 影响T附加因素: 数据结构组织、数据局部性开发、传送粒度、存储层次结构、数据局部性与存储层次结构的相互作用、固有通信与附加通信的权衡; 影响Tsynch因素:负载平衡、同步处理机制性能及应用; 影响Tpara因素:并发管理方式及任务管理的额外工作。 * * 问题规模指问题的输入参数,如:N×N矩阵相乘的N 工作负载指问题规模的工作量,工作负载一般为问题规模的函数,如上例的工作量为N3 负载不平衡开销指并行算法中,不是所有P均进行运算时所带来的损失 工作集尺寸指程序运行时动态数据所需存储量 硬件参数、程序参数内部和之间的不匹配会影响系统性能。 (1)点到点的通信:Hockney[3]对于点到点的通信,给出了如下所示的通信开销t(m)的解析表达式,它是消息长度m(字节)的线性函数: t (m) = t0 + m / r∞ (2.15) 其中,t0是启动时间(μs);r∞是渐近带宽(MB/S),表示传送无限长的消息时的通信速率。Hockney也同时引入了两个附加参数:半峰值长度m1/2(字节),表示达到一半渐近带宽(即 )所需要的消息长度;特定性能π0(MB/S),表示短消息带宽。4个参数t0、r∞、 m1/2 和π0中只有两个是独立的,其它两个可使用如下关系式推导出: t0 = m1/2 / r∞ = 1/π0 (2.16) (2)整体通信:几种典型的整体通信有:①播送(Broadcasting):处理器0发送m个字节给所有的n个处理器;②收集(Gather)

您可能关注的文档

文档评论(0)

zhuanyewd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档