网站大量收购独家精品文档,联系QQ:2885784924

大模型具身智能机器人AIGC与扩散学习.pptx

大模型具身智能机器人AIGC与扩散学习.pptx

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大模型具身智能机器人AIGC与扩散学习

1主要内容23TransformerVisionTransformer(ViT)StableDiffusion(SD)

1Transformer

Transformer基本原理:综览4Attentionisallyouneed1.Input:接受输入数据,通过输入tokenizer和Embedding预处理;2.Encoder(编码器):由多个相同的层(Nx)堆叠而成。每一层包括多头自注意力机制(Multi-HeadAttention)和前馈神经网络(FeedForward),并且每个子层后都进行加和归一化(AddNorm);3.Decoder(解码器):解码器也由多个相同的层(Nx)堆叠而成,每层包括一个额外的掩码多头自注意力机制(MaskedMulti-HeadAttention),用于处理输入数据的注意力计算。此外,解码器还包括与编码器类似的多头自注意力机制和前馈神经网络;4.输出(Output):解码器的输出通过线性层(Linear)和Softmax函数,生成最终的输出概率分布(OutputProbabilities)。Tranformer模型架构4.输出3.Decoder2.Encoder1.输入

Transformer基本原理:Encoder51.tokenizer(分词器):文本输入首先通过分词器进行处理,将句子分割成独立的词语或子词单元。例如,句子yejiangchen被分割成三个独立的词:ye,jiang,和chen;2.Embedding(词嵌入):分词后的词语被转换为向量表示,通过词嵌入层(EmbeddingLayer)生成对应的词向量。这些向量表示保留了词语的语义信息,便于后续处理。yejiangchen2.Encoder

Transformer基本原理:Encoder61.positionalencoding(位置编码):由于Transformer模型没有内置的顺序信息,需要通过位置编码来添加位置信息。位置编码使用正弦和余弦函数来生成,位置编码的关键点是将数值控制在-1到1之间;2.Attention(注意力):需要引入三个矩阵,分别是Q(Query),K(Key)和V(Value)。注意力机制需要引入三个矩阵,分别是Q(Query),K(Key),和V(Value)。注意力机制的计算过程如下:首先,将输入向量(X)分别通过三个权重矩阵得到Q,K,V矩阵;然后,计算Q和K的点积,并进行缩(Scale)操作,得到注意力得分;对得分进行Softmax处理,得到注意力权重;最后,将注意力权重与V矩阵相乘,得到最终的注意力输出。Attention机制拆解2.Encoder

Transformer基本原理:Encoder7Multi-HeadAttention机制拆解3.Multi-HeadAttention(多头注意力):多头注意力机制通过并行计算多个注意力头,使模型能够捕捉到输入序列中不同位置之间的关系。具体过程如下:ScaledDot-ProductAttention(缩放点积注意力):每个注意力头都进行缩放点积注意力计算,包括线性变换、缩放、Softmax和加权求和。并行计算多个注意力头:输入向量(X)通过多个注意力头并行计算,得到多个注意力输出(Z1,Z2,...,Zh)。连接注意力头的输出:将所有注意力头的输出连接(Concat)在一起,得到一个新的表示。线性变换:对连接后的表示进行线性变换,生成最终的注意力输出(Z)。2.Encoder

Transformer基本原理:Encoder8AddNorm机制拆解1.Add(加法):在Z的基础上加一个残差块X,防止在深度神经网络训练中发生退化问题。残差连接(ResidualConnection)通过将输入直接添加到输出,使模型能够更有效地训练深层网络。2.Normalize(归一化):在神经网络训练前对输入数据进行归一化,以保证每层的输入具有相同的分布,进而加速训练并提高模型的稳定性。3.Feed-ForwardNetworks(前馈神经网络):编码器的每一层包含一个前馈神经网络。前馈神经网络由两个线性变换层和一个激活函数ReLU组成。输入数据通过第一个线性变换层(weightlayer),进行ReLU激活,最后通过第二个线性变换层(weightlayer),生成最终的输出。2.Encoder

Transformer基本原理:Decoder91.Decoder(解码器):与Enco

文档评论(0)

专注于各类教育类资料、资格考试类资料、实用模板类资料、行业资料等十余年。

1亿VIP精品文档

相关文档