《深度学习》课件第8章-注意力机制.pptx

下载文档

5
0
约6.45千字
约 35页
2025-04-10 发布于山东
举报
版权申诉
保障服务

《深度学习》课件第8章-注意力机制.pptx

1、本文档共35页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

8注意力机制

目录|CONTENTS注意力机制简介1注意力模型基本架构2注意力机制分类3注意力模型4

注意力机制简介1

8.1注意力机制简介基本概念：注意力机制源于人类视觉系统，旨在提高模型在处理信息时的效率和效果。核心思想是帮助模型对输入的每个部分赋予不同的权重，抽取出更加关键及重要的信息，使模型做出更加准确的判断，同时不会对模型的计算和存储带来更大的开销。注意力机制应用非常广泛，尤其是在Seq2Seq模型中，如机器翻译、语音识别、图像释义（ImageCaption）等领域。

8.1注意力机制简介（1）在深度学习领域，注意力机制的雏形最早应用于计算机视觉领域的视觉注意力系统SBVA，将多尺度的图像特征组合成单一的显著性图。最后，利用一个动态神经网络，并按照显著性的顺序来高效的选择重点区域。?（2）谷歌DeepMind于2014年从机器模拟人的“视觉观察”角度出发，开发了一个新的基于注意力的任务驱动的神经网络视觉处理框架RAM，一个按照时间顺序处理输入的循环神经网络模型。?发展历程：

8.1注意力机制简介（3）YoshuaBengio等学者2015年在ICLR上发表的文章将注意力机制首次应用到NLP领域，实现同步对齐和翻译，解决以往神经机器翻译(NMT)领域使用Encoder-Decoder架构的一个潜在问题，即将信息都压缩在固定长度的向量，无法对应长句子。（4）随后，他和合作者2015年在ICML上发表的文章将注意力机制引入到图像领域，提出了两种基于注意力机制的图像描述生成模型：使用基本反向传播训练的SoftAttetnion方法和使用强化学习训练的HardAttention方法。（5）2017年JianlongFu提出了一种基于CNN的注意力机制循环注意力卷积神经网络，可以递归地分析局部信息，并从所获取的局部区域中提取细粒度信息。此外，还引入了一个注意力生成子网络。（6）2017年，以编码器-解码器为基础的Transformer架构被提出，可以有效的解决RNN无法并行处理以及CNN无法高效的捕捉长距离依赖的问题，一系列以Transformer为基础模型的改进工作大量出现。?发展历程：

注意力模型基本架构2

8.2注意力模型基本架构核心思想：根据输入的相关性来加权不同部分的信息基本公式：一个典型的注意力模型的主要组成部分：（1）输入嵌入层：将离散的输入数据（如单词或图像像素）转换为连续的向量表示。常用的嵌入方法包括Word2Vec、GloVe和预训练模型如BERT等（2）注意力计算层：是模型的核心部分，通过计算查询和键之间的相似度来决定值向量的加权方式。缩放点积注意力（ScaledDot-ProductAttention）是常见的计算方法。（3）前馈神经网络：在多头注意力层之后，通常会接一个前馈神经网络（FFN）。FFN由两个线性变换层和一个非线性激活函数（如ReLU）组成。（4）残差连接与层归一化：缓解深层网络训练中的梯度消失问题，帮助模型更有效地训练，并提高收敛速度和稳定性。

注意力机制分类3

8.3注意力机制分类一般形式的注意力分布计算公式为：注意力分布ai可以解释为在给定任务相关的查询q时，第i个信息受关注的程度。常见的注意力打分函数s（xi,q）包括：依据注意力机制的一般作用机理，将其划分为一般模式注意力、键值对模式注意力、多头注意力。一般模式注意力

8.3注意力机制分类软性注意力采用一种“软性”的信息选择机制对输入信息进行汇总，其选择的信息是所有输入信息在注意力分布下的期望，有选择的对所有输入施加注意力，并进行后续的信息整合，能够有效避免信息遗漏，但有可能关注冗余的信息。?硬性注意力只关注到某一个位置的信息，而忽略其他输入，能够有效过滤噪声信息，但是也可能会造成关键信息的遗漏。特别是当需要关注的内容较多时，该类硬性注意力并不适用。在实际应用中，软性注意力更为常见。

8.3注意力机制分类键值对模式注意力用键值对（key-valuepair）格式来表示输入信息，其中“键”用来计算注意力分布ai，“值”用来计算聚合信息，其中：(K,V)=[(k1,v1)，…，（kN，vN）]：N个输入信息；q：给定相关任务的查询向量；s（ki,q）：打分函数键值对模式注意力计算公式如下：?????????????????????需要注意的是，当K?=V时，键值对模式就等价于一般的注意力机制。多头注意力多头注意力模式是指利用多个查询Q=[q1，…，qM]，来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分：

注意力模型4

8.4.1通道空间注意力通道注意力旨在显示的建模出不同通道之间的相关性，通过网络学习的方式来自动获取到每个特征通道的重要程度，最后再为每个通

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《深度学习》课件第8章-注意力机制.pptx