可扩展处理器人工智能调优指南.pdf

下载文档

4
0
约2.89万字
约 34页
2024-04-16 发布于境外
举报
版权申诉
保障服务

可扩展处理器人工智能调优指南.pdf

1、本文档共34页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第四代英特尔®至强®可扩展处理器人工智能调优指南

概述

本指南面向已熟练掌握英特尔®AI分析工具套件(Intel®AIAnalyticsToolkit)和英特尔®分发版

OpenVINO™工具包的用户，针对面向英特尔®架构优化的AI工具包，提供基于第四代英特尔®至

强®可扩展处理器平台的调优建议。所述硬件和软件配置在大多数情况下均可提供出色性能。但由

于所涉及工具能够以多种方式进行部署，请用户就其特定场景对相关设置进行仔细斟酌。

第四代英特尔®至强®可扩展处理器平台是一个独特的可扩展平台，采用多项针对科学计算、AI、

大数据、网络等工作负载的优化加速技术，具有更高性能和更优TCO：

•配置更多内核，每路可达56个内核，因此，一个8路平台可拥有多达448个内核

•内置全新AI加速引擎——英特尔®高级矩阵扩展（Intel®AdvancedMatrixExtensions，

英特尔®AMX），支持BF16和INT8两种数据类型，可加速包括自然语言处理(NLP)、

推荐系统、图像识别等在内的多种AI推理和训练工作负载

•配备DDR5（上一代配置DDR4）和高带宽内存(HBM)，为内存敏感型工作负载提供更大

内存带宽和更高处理速度

•配备全新内置存内数据库加速器(In-MemoryDatabaseAccelerator,IAX)，提升数据分

析速率

•配备PCIe5.0，能够以高达2倍I/O带宽为时延敏感型工作负载提供更高吞吐量

•内置英特尔®动态负载均衡器（Intel®DynamicLoadBalancer，英特尔®DLB），高效处

理网络数据，提升整体系统性能

•内置英特尔®数据保护与压缩加速技术（Intel®QuickAssistTechnology，英特尔®

QAT），使密码操作和数据压缩工作负载实现高达4倍加速

AI应用开发阶段

典型的深度学习应用开发和部署包括以下几个阶段：

各阶段需要配置以下资源：

•算力

•内存

•数据集存储设备

•计算节点之间的通信链路

•经优化的软件

选择合适的资源配置组合可以大幅提升AI业务效率。基于第四代英特尔®至强®可扩展处理器平台

的基础设施可支持机器学习/深度学习训练和推理，因此从数据集准备、模型训练、模型优化到模

型部署等各个阶段都可以在该基础设施上完成。推荐的基础设施示意图如下：

英特尔®AMX介绍

英特尔®高级矢量扩展512(Intel®AdvancedVectorExtensions512，英特尔®AVX-512)是x86处理器上

的一套单指令多数据(SIMD)指令集，用于实现通过一条指令执行多个数据操作。英特尔®AVX-512顾名思

义，使用位宽是512位的寄存器，可以支持16个32位单精度浮点数或64个8位整数。

英特尔®至强®可扩展处理器支持多种工作负载，包括复杂的AI工作负载。该处理器还借助英特尔®深度学习

加速技术（Intel®DeepLearningBoost，英特尔®DLBoost）进一步提升AI计算性能。英特尔®DLBoost

包含英特尔®AVX-512VNNI（矢量神经网络指令）、英特尔®AVX512BF16和英特尔®AMX。

英特尔®AVX-512VNNI可以将三条指令（vpmaddubsw、vpmaddwd和vpaddd）合并成一条指令

(vpdpbusd)执行，这进一步增强了新一代英特尔®至强®可扩展处理器的计算潜能，提升了INT8模型的推

理性能。目前第二代、第三代和第四代英特尔®至强®可扩展处理器全部支持英特尔®VNNI。

英特尔®AVX-512BF16包含的VDPBF16PS指令可以进行BF16对点积运算并将结果累加成单精

度(FP32)，VCVTNE2PS2BF16和VCVTNEPS2BF16指令可以将打包的单精度数据(FP32)转

化为打包的BF16数据。

英特尔®AMX是全新64位编程范式，由两部分构成：代表大型2D内存映像子阵列的一组2D寄

存器(TILE)和在TILE执行操作的加速器，前者也称TMUL

可扩展处理器人工智能调优指南.pdf 原文免费试下载

您可能关注的文档

文档评论（0）

数据相关的文档 + 关注: 实名认证

服务提供商

数学毕业，从事大数据工作十几年，涉及二三十个行业

咨询作者（0人已咨询）已休息

1亿VIP精品文档

更多 >

可扩展处理器人工智能调优指南.pdf