AI芯片产业生态梳理 - 副本.pptx

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

AI芯片产业生态梳理

AI芯片作为产业核心,也是技术要求和附加值最高的环节,在AI产业链中的产业价值和战

略地位远远大于应用层创新。腾讯发布的《中美两国人工智能产业发展全面解读》报告显示,基础层的处理器/芯片企业数量来看,中国有14家,美国33家。

……

4

中国AI芯片公司

目录

3

Page口2

•利用训练好的模型,使用新的数据去“推理”出各种结论,

如视频监控设备通过后台的深度神经网络模型,判断一张抓拍到的人脸是否属于黑名单。

•Inference的计算量相比Training少很多,但仍然涉及大量的矩阵运算。

•在推理环节,GPU、FPGA和ASIC都有很多应用价值。

•通过大量的数据输入或采取增强学习等非监督学习方法,训练出一个复杂的深度神经网络模型,

•涉及海量的训练数据和复杂的深度神经网络结构,

•运算量巨大,需要庞大的计算规模,

•对于处理器的计算能力、精度、可扩展性等性能要求很高,

•主要使用NVIDIA的GPU集群来完成,

•Google自主研发的ASIC芯片TPU2.0也支持训练环节的深度网络加速,

Inference

推理

Training

训练

可以分为Training(训练)和Inference(推理)两个环节

AI芯片分类——从功能上分

Page口3

•在设备端Inference领域,智能终端数量庞大且需求差异较大,

•如高级辅助驾驶ADAS、虚拟现实VR等设备对实时性要求很高,推理过程不能交由云端完成,

•要求终端设备本身需要具备足够的推理计算能力,

•一些低功耗、低延迟、低成本的专用芯片也会有很大的市场需求。

•在深度学习的Training阶段,由于对数据量及运算量需求巨大,

•单一处理器几乎不可能独立完成一个模型的训练过程,

•Training环节目前只能在云端实现,在设备端做Training目前还不是实际。

•在Inference阶段,由于目前训练出来的深度神经网络模型大多仍非常复杂,其推理过程仍然是计算密集型和存储密集型的,若部署到资源有限的终端用户设备上难度很大,因此,云端推理目前在人工智能应用中需求更为明显。

•GPU、FPGA、ASIC(GoogleTPU1.0/2.0)等都已应用于云端Inference环境。

Device/Embedded设备端

Cloud/DataCenter云端

可以分成“Cloud/DataCenter(云端)”和“Device/Embedded(设备端)”两大类

AI芯片分类——从应用场景分

Page口4

全定制化ASIC芯片

•TPU

•寒武纪Cambricon-1A等

类脑计算芯片

•IBMTrueNorth、

•Westwell西井科技、

•高通Zeroth等

•GPU

•FPGA

•深鉴科技DPU、

•百度XPU(256核、基于FPGA的云计算加速芯片(与赛灵思Xilinx合作)

AI芯片分类——从技术架构分

Page口5

Inference

OnCloud

云端推理

Training

OnCloud

云端训练

AI芯片产业生态

Training

OnDevice设备端训练

ASIC

Googe

TPU2.0

ASIC

Googe

TPU1.0/2.0

chiplntelli

carmbrican

?

Page口7

ADAS

FPGA

GPU

GPU

NLP

CV

VR

DRAM

Training训练

CPUVSGPU架构

ALU

ALU

GPU

CPU

u2007年以前,人工智能研究受限于当时算法、数据等因素,对于芯片并没有特别强烈的需求,通用的CPU芯片即可提供足够的计算能力。

uGoogleBrain项目,使用包含16000个CPU核的并行计算平台,训练超过10亿个神经元的深度神经网络。

uCPU的串行结构并不适用于深度学习所需的海量数据运算需求,

u用CPU做深度学习训练效率很低,在早期使用深度学习算法进行语音识别的模型中,拥有429个神经元的输入层,整个网络拥有156M个参数,训练时间超过75天。

u在内部结构上,CPU中70%晶体管都是用来构建Cache(高速缓冲存储器)和一部分控制单元,负责逻辑运算的部分(ALU模块)并不多,指令执行是一条接一条的串行过程。

uGPU整个就是一个庞大的计算矩阵,GPU具有数以千计的计算核心、可实现10-100倍应用吞吐量,

u还支持对深度学习至关重要的并行计算能力,可以比传统处理器更加快速,大大加快了训练过程。

uG

文档评论(0)

chenzehao888 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档