《微处理器的架构与运作》课件.pptVIP

下载本文档

0
0
约1.71万字
约 60页
2025-04-08 发布于四川
举报
版权申诉

《微处理器的架构与运作》课件.ppt

1、本文档共60页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

*************************************缓存一致性协议MESI协议MESI是最常用的缓存一致性协议之一，名称源自四种可能的缓存行状态：Modified（已修改）、Exclusive（独占）、Shared（共享）和Invalid（无效）。当一个核心写入共享数据时，其他核心的缓存行会标记为无效，确保所有核心看到必威体育精装版数据。MESI通过嗅探（监听总线上的缓存操作）实现一致性维护，每个缓存控制器监视总线上的操作并更新本地缓存状态。目录式协议随着核心数量增加，基于嗅探的协议扩展性变差。目录式协议通过维护一个中央目录，跟踪哪些核心缓存了特定内存块，从而减少广播流量。当核心需要修改共享数据时，目录控制器只向缓存了该数据的核心发送无效化消息，而不是广播到所有核心。这种选择性通信大大减少了系统总线流量，提高了大规模多核系统的可扩展性。一致性挑战随着核心数量和复杂度的增加，缓存一致性的维护变得越来越困难。一致性流量可能占用大量带宽，增加延迟并消耗能量。研究人员正在探索新的一致性模型和优化技术，包括松弛一致性、区域一致性和基于编译器的优化。这些技术在保证程序正确性的同时，减少了一致性维护的开销，适应未来更大规模的多核系统。第八章：异构计算问题识别分析工作负载特性，确定计算密集、并行度高或特殊模式的部分，这些是可能适合加速器处理的候选加速器选择基于任务特性选择合适的加速器：GPU适合大规模并行计算，FPGA适合特定算法定制，AI加速器优化深度学习任务划分将应用程序拆分为在CPU和各种加速器上执行的部分，考虑数据依赖和通信开销协同计算使用适当的编程模型（如CUDA、OpenCL、TensorFlow）实现CPU和加速器之间的协同工作，管理数据传输和同步GPU架构SIMT模型单指令多线程模型，允许多个线程执行相同指令但处理不同数据流处理器大量简单核心并行工作，每个核心执行相同指令集2内存层次复杂的存储系统包括寄存器、共享内存、L1/L2缓存和全局内存3扩展能力特殊单元加速图形、物理模拟和AI等特定任务FPGA基础可编程逻辑块可编程逻辑块（CLB）是FPGA的基本构建单元，通常由查找表（LUT）、触发器和多路复用器组成。LUT可以实现任意的组合逻辑函数，触发器提供时序和状态存储，而多路复用器控制信号流向。现代FPGA的CLB设计越来越复杂，可能包含算术逻辑单元、进位链和专用寄存器，以提高特定运算的效率。一个典型的FPGA可能包含数千甚至数十万个CLB。互连资源FPGA的互连架构由可编程的开关和布线通道组成，允许CLB之间建立任意连接。这种灵活的互连是FPGA可重构性的关键，但也占用了芯片面积的大部分，并引入了信号延迟。为了平衡灵活性和性能，现代FPGA采用分层互连架构，包括短距离连接、长距离连接和全局布线网络。高级布线算法负责优化信号路径，减少延迟和资源占用。片上存储器FPGA通常包含分布式RAM（实现为LUT的一部分）和块RAM（专用的内存块）。这些存储资源可用于实现缓冲区、FIFO、查找表和小型数据存储，而无需外部内存。现代FPGA还集成了越来越多的硬核资源，如乘法器、DSP块、高速收发器、PCIe控制器和甚至完整的处理器核心（如ARM核）。这些硬核比用CLB实现的等效功能更高效，但减少了设计灵活性。AI加速器TPU架构张量处理单元（TPU）是谷歌设计的专用AI加速器，针对深度学习工作负载优化。TPU的核心是矩阵乘法单元（MXU），能够高效执行大规模矩阵运算。TPU采用脉动阵列架构，数据在处理元素之间流动，最大限度减少数据移动，显著提高能效比。神经网络处理单元NPU是更通用的AI加速器设计，各公司（如华为、高通、苹果）都有自己的实现。NPU通常支持多种神经网络操作，包括卷积、池化和激活函数，优化的特性各有不同。NPU通常集成在SoC中，为移动设备和边缘计算提供高效的AI处理能力。内存架构创新AI加速器面临的主要挑战之一是内存墙—内存带宽限制了计算单元的利用率。为解决这一问题，AI加速器采用了创新的内存架构，如片上缓冲区、多级缓存和高带宽内存（HBM）。一些设计甚至探索近内存计算和内存内计算技术，进一步减少数据移动。第九章：低功耗设计动态功耗静态功耗短路功耗动态功耗管理时钟门控时钟信号是处理器中功耗消耗的主要来源之一，因为时钟树覆盖了芯片的大部分面积，并且在每个时钟周期都有信号翻转。时钟门控技术通过在不需要工作的电路部分暂停时钟信号，降低了动态功耗。现代处理器实现了多级时钟门控，从细粒度（单个寄存器或逻辑块）到粗粒度（整个功能单元或处理器核心）