网站大量收购独家精品文档,联系QQ:2885784924

可扩展处理器人工智能调优指南.pdf

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第四代英特尔®至强®可扩展处理器人工智能调优指南

概述

本指南面向已熟练掌握英特尔®AI分析工具套件(Intel®AIAnalyticsToolkit)和英特尔®分发版

OpenVINO™工具包的用户,针对面向英特尔®架构优化的AI工具包,提供基于第四代英特尔®至

强®可扩展处理器平台的调优建议。所述硬件和软件配置在大多数情况下均可提供出色性能。但由

于所涉及工具能够以多种方式进行部署,请用户就其特定场景对相关设置进行仔细斟酌。

第四代英特尔®至强®可扩展处理器平台是一个独特的可扩展平台,采用多项针对科学计算、AI、

大数据、网络等工作负载的优化加速技术,具有更高性能和更优TCO:

•配置更多内核,每路可达56个内核,因此,一个8路平台可拥有多达448个内核

•内置全新AI加速引擎——英特尔®高级矩阵扩展(Intel®AdvancedMatrixExtensions,

英特尔®AMX),支持BF16和INT8两种数据类型,可加速包括自然语言处理(NLP)、

推荐系统、图像识别等在内的多种AI推理和训练工作负载

•配备DDR5(上一代配置DDR4)和高带宽内存(HBM),为内存敏感型工作负载提供更大

内存带宽和更高处理速度

•配备全新内置存内数据库加速器(In-MemoryDatabaseAccelerator,IAX),提升数据分

析速率

•配备PCIe5.0,能够以高达2倍I/O带宽为时延敏感型工作负载提供更高吞吐量

•内置英特尔®动态负载均衡器(Intel®DynamicLoadBalancer,英特尔®DLB),高效处

理网络数据,提升整体系统性能

•内置英特尔®数据保护与压缩加速技术(Intel®QuickAssistTechnology,英特尔®

QAT),使密码操作和数据压缩工作负载实现高达4倍加速

AI应用开发阶段

典型的深度学习应用开发和部署包括以下几个阶段:

各阶段需要配置以下资源:

•算力

•内存

•数据集存储设备

•计算节点之间的通信链路

•经优化的软件

选择合适的资源配置组合可以大幅提升AI业务效率。基于第四代英特尔®至强®可扩展处理器平台

的基础设施可支持机器学习/深度学习训练和推理,因此从数据集准备、模型训练、模型优化到模

型部署等各个阶段都可以在该基础设施上完成。推荐的基础设施示意图如下:

英特尔®AMX介绍

英特尔®高级矢量扩展512(Intel®AdvancedVectorExtensions512,英特尔®AVX-512)是x86处理器上

的一套单指令多数据(SIMD)指令集,用于实现通过一条指令执行多个数据操作。英特尔®AVX-512顾名思

义,使用位宽是512位的寄存器,可以支持16个32位单精度浮点数或64个8位整数。

英特尔®至强®可扩展处理器支持多种工作负载,包括复杂的AI工作负载。该处理器还借助英特尔®深度学习

加速技术(Intel®DeepLearningBoost,英特尔®DLBoost)进一步提升AI计算性能。英特尔®DLBoost

包含英特尔®AVX-512VNNI(矢量神经网络指令)、英特尔®AVX512BF16和英特尔®AMX。

英特尔®AVX-512VNNI可以将三条指令(vpmaddubsw、vpmaddwd和vpaddd)合并成一条指令

(vpdpbusd)执行,这进一步增强了新一代英特尔®至强®可扩展处理器的计算潜能,提升了INT8模型的推

理性能。目前第二代、第三代和第四代英特尔®至强®可扩展处理器全部支持英特尔®VNNI。

英特尔®AVX-512BF16包含的VDPBF16PS指令可以进行BF16对点积运算并将结果累加成单精

度(FP32),VCVTNE2PS2BF16和VCVTNEPS2BF16指令可以将打包的单精度数据(FP32)转

化为打包的BF16数据。

英特尔®AMX是全新64位编程范式,由两部分构成:代表大型2D内存映像子阵列的一组2D寄

存器(TILE)和在TILE执行操作的加速器,前者也称TMUL

文档评论(0)

数据相关的文档 + 关注
实名认证
服务提供商

数学毕业,从事大数据工作十几年,涉及二三十个行业

1亿VIP精品文档

相关文档