网站大量收购闲置独家精品文档,联系QQ:2885784924

智能计算系统:从深度学习到大模型 第2版课件 期末复习.pptx

智能计算系统:从深度学习到大模型 第2版课件 期末复习.pptx

  1. 1、本文档共110页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

智能计算系统

期末复习;什么是智能计算系统?;智能计算系统的形态;处理过程;二三章章节定位;包含关系;如何学习?如何理解?如何学会?;线性回归;单变量线性回归模型(一元回归模型);多变量线性回归模型;;?;多层感知机;多层感知机;神经网络训练;反向传播的作用是将神经网络的输出误差反向传播到神经网络的输入端,并以此来更新神经网络中各个连接的权重

当第一次反向传播法完成后,网络的模型参数得到更新,网络进行下一轮的正向传播过程,如此反复的迭代进行训练,从而不断缩小计算值与真实值之间的误差。;训练完了结果就是不准,怎么办?;;选择合适的激活函数;神经网络中损失函数的特性;欠拟合和过拟合;神经网络存在的问题及解决办法;定义;适合图像处理的卷积神经网络;卷积神经网络(CNN);CNN组成;卷积层;卷积层;卷积层;卷积层;;池化层;全连接层;卷积神经网络结构;浅层学习局部特征,深层学习整体特征;基于CNN的图像分类算法;VGG;ResNet;ResNet;ResNet;图像分类算法;;基于CNN的图像检测算法;目标检测算法;生成对抗网络GAN;生成对抗网络GAN;卷积GAN

DCGAN:将GAN中全连接神经网络扩展到卷积神经网络

ResGAN:图像恢复,ResNet

SRGAN:超分辨率,ResNet

CycleGAN:图像转换

条件GAN

CGAN

InfoGAN

集成推断模型的GAN

BiGAN

对抗自编码器

VAE-GAN

;生成对抗网络vs扩散模型;扩散模型;扩散模型;51;循环神经网络结构;?;循环神经网络结构;循环神经网络结构;RNN的梯度消失与梯度爆炸;RNN的梯度消失与梯度爆炸;由编码器(encoder)和解码器(decoder)两部分组成

编码器根据输入数据生成语义编码

解码器根据该语义编码输出处理结果

Seq2Seq模型适用于输入序列和输出序列不等长的情况;Transformer;;;;63;64;Imagestyletransfer;Real-TimeImagestyletransfer;四五章章节定位;定义;PyTorch简介;1、NumPy基础;71;72;73;74;Pytorch整体架构;计算图构建;计算图构建;计算图执行;深度学习编译;分布式训练;六七章章节定位;

用来处理智能任务的处理器

可以是CPU、GPU、FPGA等

也可以是专用的深度学习处理器(DLP);83;以精简的通用处理器结构为基础

省去了分支预测器

数据缓存被便笺存储器取代

添加直接访存模块(DMA)负责便笺存储器与主存储器间的数据搬运

添加矩阵运算单元

添加矩阵指令的控制单元

;深度学习处理器(DLP)的特点

计算:矩阵、卷积运算为主,辅以标量、向量运算

控制:计数循环为主,辅以条件分支指令

存储:便笺存储器为主,辅以寄存器

采用分形方式进行规模扩展;计算;访存;通信;优化设计;第八章章节定位;抽象硬件架构;典型智能计算系统;异构编程模型;异构编程模型:流程;异构编程模型:编译器支持;异构编程模型:运行时支持;;通用智能编程模型:运行时支持;1、主机端异步发射3个Kernel到Queue中。用户可以根据同步和通信的需要,在三次发射之间或之后任意位置调用同步接口SyncQueue。假设在三次发射之后调用,则等待Queue中的任务全部完成后再继续执行主机端SyncQueue后面的程序;

2、第一个任务Kernel1在Time1被发射后立即进入Queue,设备端发现当前全部核心空闲则立即执行Kernel1。Kernel1的任务类型为UNION2,会从Time1开始占用2个Cluster执行计算;;100;

6、Kernel3的任务类型是UNION4,需要4个Cluster,但在Time1时刻到Time2时刻硬件的4个Cluster被占用了3个(假设只有4个Cluster),那么设备端调度器会一直等待Time2时刻有4个Cluster的空闲时才执行Kernel3。

7、假设Kernel1和Kernel2的任务并行总规模taskDim超过了任务类型表示的核数(例如kernel1的taskDim=16,而调度类型是UNION2,即一次要占用8个Core),则调度器会将同一份Kernel程序在时间序上执行多次;

;Kernel函数接口;性能调优方法;向量化

张量化的基本原理是将大量标量计算合并为张量计算,使用智能编程语言的张量计算语句改写代码,充分利用硬件的张量计算单元,提升程序运行速度。

;软件流水

智能处理器的计算和访存单元可以并行工作,编程时可以显式将无依赖的计算和访存指令放在一起,从而提高硬件的利用率和程序性能。计算和访存并行最常用的方法是三级流水。

;

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档