人工智能芯片设计 课件 周巍 第4--7章_人工智能与深度学习 ---人工智能芯片架构设计 .pptx

人工智能芯片设计 课件 周巍 第4--7章_人工智能与深度学习 ---人工智能芯片架构设计 .pptx

  1. 1、本文档共167页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第四章:人工智能与深度学习;2;3;4;5;6;7;8;9;10;11;12;13;14;15;16;17;18;19;20;21;22;23;24;25;26;27;

第五章:人工智能芯片简介;29;30;31;32;33;34;

第六章:人工智能芯片的数据流设计;6.1卷积神经网络模型分析;6.1卷积神经网络模型分析;6.1卷积神经网络模型分析;6.1卷积神经网络模型分析;6.1卷积神经网络模型分析;问题总结

部署卷积神经网络的瓶颈主要由两方面:

庞大的参数规模需要大量的存储空间,在运算过程中需要将参数搬运到处理器片上缓存,这对硬件平台的传输带宽要求极大;

浮点运算的复杂度要远高于定点运算,反映在实际应用中就是浮点运算任务在处理器上运行时的能量消耗和资源占用量要远超定点运算。例如,通过实验发现,在FPGA中,1个16位的4阶浮点乘法器要消耗2个DSP(数字信号处理器)、51个LUT(查找表)和95个FF(触发器),最大工作频率约为219MHz;而一个16位的定点乘法器仅需要1个DSP,且可以轻松达到300MHz的工作频率。

解决办法

使用基于块浮点数的数据量化算法

在基于块浮点数的卷积神经网络中,复杂的浮点乘加运算可用定点数运算代替

;6.2块浮点数设计;?;?;6.2块浮点数设计;6.2块浮点数设计;6.2块浮点数设计;6.2.3无偏差溢出数据处理

块浮点算法中的精度损失主要来自于浮点数与块浮点数间的转换,在尾数部分的移位操作过程中,即式(6-7),不可避免的会有一部分比特位无法完整保留下来,这部分比特数据称为溢出数据。

处理溢出数据的两种常用方法:

截断操作,直接舍弃掉溢出数据,但会引入较大的向下偏差且会在卷积层间累积,最终产生明显偏差

舍入操作,只会引入高斯白噪声,不存在明显的偏差

由于尾数位宽有限,所以浮点数能精确表达的数值也有限,在两个相邻的浮点数之间,一定有无数个不能用浮点数精确表达的实数,IEEE754标准中,对于这些不能被精确表达的数字,用最接近它们取值的浮点数近似表示,即舍入。

;一共有以下四种常见的舍入模式:

表6-3以实例的形式展示了四种舍入方式的计算规则(仅保留整数部分),可以发现后三种模式都保持有向上或向下的偏差,容易在卷积神经网络中逐层累积,造成层间累积误差,而RN模式则不会,是一种无偏差的舍入模式。

在RN模式下,会根据需要保留的最后一位的奇偶情况决定是进位或是舍弃,以保证舍入后的数据为偶数。从统计意义上考虑,须保留的最后一位为奇数或偶数的概率相当,向下和向上的偏差相互抵消。

;50;?;为了评估这两种块格式化方案的精确度,基于ImageNet图像分类数据集在VGGNet-16上进行了测试。

实验结果显示,等式(6-11)的块格式化方案相比等式(6-9),Top-1和Top-5准确率分别高出1.59%和0.68%,因此最终选择等式(6-11)方案。;6.3.2低比特块浮点数设计;为选择最短尾数位宽的块浮点格式,基于Caffe平台进行了一系列实验,测试VGGNet-16、GoogLeNet和ResNet-50三种经典网络,使用ImageNet数据集对9组不同尾数位宽组合进行评估。

实验将输入特征图和权值进行块格式化,进行矩阵乘法后输出特征图再转化为浮点数。

结果表明,当尾数位宽为8时,分类准确率下降不超过0.12%,模型精度几乎无损,特别是GoogLeNet在未重新训练下损失最小。

;6.3.3面向硬件加速器的块浮点数据流结构;6.3.4四阶误差分析模型

第一阶段;第二阶段;6.4卷积神经网络稀疏化算法;?;6.4卷积神经网络稀疏化算法;?;6.4卷积神经网络稀疏化算法;6.4卷积神经网络稀疏化算法;6.4卷积神经网络稀疏化算法;3.参数微调

在完成整个网络卷积层的卷积核筛选之后,掩码层的参数分布如图6-9所示。

由于掩码层的参数只是接近于0,这些卷积核的被剔除之后依然会对网络的预测精度产生一定的影响。在大多数情况下,一般会在完成卷积核的稀疏化之后对网络进行甚于参数进行微调。

注:在大多数情况下,一般会在完成卷积核的稀疏化之后对网络进行参数微调。由于在稀疏化工作中使用稀疏化正则项进行约束,使得参数产生约束效果,但参数微调的过程中,不需要剩余卷积核参数产生稀疏化效果。因此,在此处本章遵循原始网络训练效果,使用原始网络训练的正则化约束项。

;6.4卷积神经网络稀疏化算法;6.4卷积神经网络稀疏化算法;6.4卷积神经网络稀疏化算法;6.4卷积神经网络稀疏化算法;6.4卷积神经网络稀疏化算法;6.4卷积神经网络稀疏化算法;6.4卷积神经网络稀疏化算法;6.4卷积神经网络稀疏化算法;6.5基于Low-Rank的算法加速;6.5基于Low-Rank的算法加速;6.5基于Low-Ra

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档