- 1、本文档共114页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
智能计算系统
第六章面向深度学习的
处理器原理;运行;
用来处理智能任务的处理器
可以是CPU、GPU、FPGA等
也可以是专用的深度学习处理器(DLP);提纲;为什么选用通用处理器?
普及:每台计算设备都包含CPU
廉价:1分钱获得完备的处理能力
灵活:可与其他任何任务共享计算硬件
适用小模型、少量数据、成本敏感的推理场景;6;7;8;9;10;1930年代~1940年代;1940年代~1950年代;13;冯·诺依曼结构
包含控制器、运算器、存储器和输入/输出。
“存储程序”:指令从主存储器中取出
;冯·诺依曼结构
包含控制器、运算器、存储器和输入/输出。
“存储程序”:指令从主存储器中取出
;16;自动暂存最近读取的数据,以备不久之后再次使用
通常使用SRAM实现
;哈佛结构
指令缓存和数据缓存分离
允许同时进行取指和访存,互不干扰
;精简指令集结构(RISC)
关键原则:通过专门的load/store指令访存
实践中,处理器内部将复杂指令首先译为RISC微码;分支指令:由运算器计算出下一条指令的地址
分支指令计算完成前,暂停取指!;多发射:多条互不相关的指令可以同时发射
可能同时利用多个运算器;地址生成单元:专用于计算访存地址的运算器
可以高效支持多种寻址模式;寄存器重命名:将寄存器编号与物理寄存器相分离
消除伪相关,提高指令同时执行的机会;乱序执行,有序提交
实现精确例外,可以撤销已执行的指令;写入/写出队列:暂存已执行、未提交的访存指令
可以连续发起load/store指令,未提交前可以撤销;数据前递:上一指令运算结果直接送入下一指令运算单元
可以省去连续运算时反复写入、读出寄存器的动作;分支预测:未确定跳转方向时,按猜测方向投机执行
预测正确时:减少等待时间,提高了流水线效率
预测错误时:不予提交,撤销错误执行的指令;运算只占1%?
以标量作为基本运算粒度
需要更多指令来执行
任意指令间都潜在依赖,控制很复杂
“内存墙”现象
越来越大、越来越多层次的缓存;29;降低控制开销:循环展开(Loopunrolling);降低控制开销:循环展开(Loopunrolling)
降低寻址开销:强度削减(Strengthreduction);降低控制开销:循环展开(Loopunrolling)
降低寻址开销:强度削减(Strengthreduction)
均为通用技巧,现代编译器已经尽力而为。
没有非常有效的优化方法!
为什么?;降低控制开销:循环展开(Loopunrolling)
降低寻址开销:强度削减(Strengthreduction)
均为通用技巧,现代编译器已经尽力而为。
没有非常有效的优化方法!
通用处理器为通用性而设计,深度学习只是其中一种应用;
虽然深度学习程序行为规整,仍需较多指令才能定义清晰。;降低控制开销:循环展开(Loopunrolling)
降低寻址开销:强度削减(Strengthreduction)
均为通用技巧,现代编译器已经尽力而为。
没有非常有效的优化方法!
通用处理器为通用性而设计,深度学习只是其中一种应用;
虽然深度学习程序行为规整,仍需较多指令才能定义清晰。
每访问一个数据,都必须计算其地址,并控制循环条件!;容量失效:循环访问数据超过缓存容量,LRU缓存失效;36;37;分块(tiling):将运算分解至固定尺寸的区块处理;通用处理器上实现矩阵乘法,这两种实现方式:
递归(分治法)
谁更高效?;通用处理器上实现矩乘,这两种实现方式:
递归(分治法)
谁更高效?没有定论!需要通过测试来确认。;通用处理器独特的优势:普及、廉价、灵活
缺陷:较高的控制、寻址开销;复杂的访存优化策略。
控制、寻址开销仅凭软件优化难以改善。
如何从架构上改善?;通用处理器独特的优势:普及、廉价、灵活
缺陷:较高的控制、寻址开销;复杂的访存优化策略。
控制、寻址开销仅凭软件优化难以改善。
如何从架构上改善?
观察:深度学习处理数据以向量、矩阵为主,数量较多。;通用处理器独特的优势:普及、廉价、灵活
缺陷:较高的控制、寻址开销;复杂的访存优化策略。
控制、寻址开销仅凭软件优化难以改善。
如何从架构上改善?
观察:深度学习处理数据以向量、矩阵为主,数量较多。
思路:允许一条指令并行操作多个数据?;通用处理器独特的优势:普及、廉价、灵活
缺陷:较高的控制、寻址开销;复杂的访存优化策略。
控制、寻址开销仅凭软件优化难以改善。
如何从架构上改善?
观察:深度学习处理数据以向量、矩阵为主,数量较多。
思路:允许一条指令并行操作多个数据?
预期效果:摊薄控制和寻址开销!;提纲;来源于Flynn分类法(1972);来源于Flynn分类法(1972);允许一条指令并行操作多个数据;允许一条指令并行操作多个数据
您可能关注的文档
- 智能计算系统:从深度学习到大模型 第2版课件 8、第八章-智能编程语言.pptx
- 智能计算系统:从深度学习到大模型 第2版课件 9、第九章-大模型计算系统.pptx
- 2024年度水渠改扩建工程合同履行监督及验收合同3篇.docx
- 2024年度模具加工委托合同通用范本2篇.docx
- 2024年度民政局官方离婚协议范本及法律适用指南3篇.docx
- 2024年度民法典保管合同(四):跨境电子商务仓储物流服务协议(电子版)2篇.docx
- 2024年度民法典运输合同标准化通用版2篇.docx
- 2024年度生物环保技术研发与应用合同正规范本3篇.docx
- 2024年度版权许可协议书:游戏作品授权2篇.docx
- 2024年度特许经营合同许可范围与义务规定2篇.docx
- 2024年度版权许可合同:关于某音乐作品版权的许可使用3篇.docx
- 2024年度民房房屋买卖合同(智能家居家居一体化升级)3篇.docx
- 2024年度水利工程劳务分包合同书3篇.docx
- 2024年度模特肖像使用权及商业秘密保护合同3篇.docx
- 2024年度民间个人机动车辆质押借款合同全新范本9篇.docx
- 2024年度民政离婚协议书(离婚协议书法律效力确认)3篇.docx
- 2024年度民法典车辆租赁合同(自驾游租赁)3篇.docx
- 2024年度水塔拆除与城市历史风貌保护承包合同3篇.docx
- 2024年度水利工程挖掘机承包工程范本3篇.docx
- 2024年度男方出轨离婚财产分割与子女抚养及赡养及监护及债务承担及子女教育及财产管理及子女就业指导及.docx
文档评论(0)