大模型具身智能机器人AIGC与扩散学习.pptx

下载文档

0
0
约4.87千字
约 20页
2025-03-20 发布于宁夏
举报
版权申诉
保障服务

大模型具身智能机器人AIGC与扩散学习.pptx

1、本文档共20页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大模型具身智能机器人AIGC与扩散学习

1主要内容23TransformerVisionTransformer（ViT）StableDiffusion（SD）

1Transformer

Transformer基本原理：综览4Attentionisallyouneed1.Input：接受输入数据，通过输入tokenizer和Embedding预处理；2.Encoder（编码器）：由多个相同的层（Nx）堆叠而成。每一层包括多头自注意力机制（Multi-HeadAttention）和前馈神经网络（FeedForward），并且每个子层后都进行加和归一化（AddNorm）；3.Decoder（解码器）：解码器也由多个相同的层（Nx）堆叠而成，每层包括一个额外的掩码多头自注意力机制（MaskedMulti-HeadAttention），用于处理输入数据的注意力计算。此外，解码器还包括与编码器类似的多头自注意力机制和前馈神经网络；4.输出（Output）：解码器的输出通过线性层（Linear）和Softmax函数，生成最终的输出概率分布（OutputProbabilities）。Tranformer模型架构4.输出3.Decoder2.Encoder1.输入

Transformer基本原理：Encoder51.tokenizer（分词器）：文本输入首先通过分词器进行处理，将句子分割成独立的词语或子词单元。例如，句子yejiangchen被分割成三个独立的词：ye，jiang，和chen；2.Embedding（词嵌入）：分词后的词语被转换为向量表示，通过词嵌入层（EmbeddingLayer）生成对应的词向量。这些向量表示保留了词语的语义信息，便于后续处理。yejiangchen2.Encoder

Transformer基本原理:Encoder61.positionalencoding（位置编码）：由于Transformer模型没有内置的顺序信息，需要通过位置编码来添加位置信息。位置编码使用正弦和余弦函数来生成，位置编码的关键点是将数值控制在-1到1之间；2.Attention（注意力）：需要引入三个矩阵，分别是Q（Query），K（Key）和V（Value）。注意力机制需要引入三个矩阵，分别是Q（Query），K（Key），和V（Value）。注意力机制的计算过程如下：首先，将输入向量（X）分别通过三个权重矩阵得到Q，K，V矩阵；然后，计算Q和K的点积，并进行缩（Scale）操作，得到注意力得分；对得分进行Softmax处理，得到注意力权重；最后，将注意力权重与V矩阵相乘，得到最终的注意力输出。Attention机制拆解2.Encoder

Transformer基本原理:Encoder7Multi-HeadAttention机制拆解3.Multi-HeadAttention（多头注意力）：多头注意力机制通过并行计算多个注意力头，使模型能够捕捉到输入序列中不同位置之间的关系。具体过程如下：ScaledDot-ProductAttention（缩放点积注意力）：每个注意力头都进行缩放点积注意力计算，包括线性变换、缩放、Softmax和加权求和。并行计算多个注意力头：输入向量（X）通过多个注意力头并行计算，得到多个注意力输出（Z1,Z2,...,Zh）。连接注意力头的输出：将所有注意力头的输出连接（Concat）在一起，得到一个新的表示。线性变换：对连接后的表示进行线性变换，生成最终的注意力输出（Z）。2.Encoder

Transformer基本原理:Encoder8AddNorm机制拆解1.Add（加法）：在Z的基础上加一个残差块X，防止在深度神经网络训练中发生退化问题。残差连接（ResidualConnection）通过将输入直接添加到输出，使模型能够更有效地训练深层网络。2.Normalize（归一化）：在神经网络训练前对输入数据进行归一化，以保证每层的输入具有相同的分布，进而加速训练并提高模型的稳定性。3.Feed-ForwardNetworks（前馈神经网络）：编码器的每一层包含一个前馈神经网络。前馈神经网络由两个线性变换层和一个激活函数ReLU组成。输入数据通过第一个线性变换层（weightlayer），进行ReLU激活，最后通过第二个线性变换层（weightlayer），生成最终的输出。2.Encoder

Transformer基本原理：Decoder91.Decoder（解码器）：与Enco