- 1、本文档共80页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大模型网络结构计算机科学与技术学院智周万物?道济天下
oTransformerl注意力机制l编码器-解码器结构l大模型中的编码器-解码器结构o编码器结构----BERT家族lBERT结构l预训练策略lBERT的变体o解码器结构----GPT家族lGPT结构l自回归预训练l后续改进o思考 目录2
目录oTransformerl注意力机制l编码器-解码器结构l大模型中的编码器-解码器结构o编码器结构----BERT家族lBERT结构l预训练策略lBERT的变体o解码器结构----GPT家族lGPT结构l自回归预训练l后续改进o思考16
o面对问题:记录输入序列中的长期依赖关系oTransformer利用注意力机制完成对源语言序列和目标语言序列全局依赖的建模 Transformer4Transformer是自然语言处理领域的颠覆者,为后续大模型网络结构(BERT、GPT)的发展奠定了基础
o基本结构:编码器-解码器结构o编码器输入,解码器输出 Transformer4
o嵌入表示层o注意力层o位置前馈感知层o残差连接o层归一化 Transformer4
3 目录oTransformerl注意力机制l编码器-解码器结构l大模型中的编码器-解码器结构o编码器结构----BERT家族lBERT结构l预训练策略lBERT的变体o解码器结构----GPT家族lGPT结构l自回归预训练l后续改进o思考
注意力机制是对人类行为的一种仿生,起源于对人类视觉注意机制的研究 注意力机制4
注意力机制8不同的单词通过不同权重计算影响1.自注意力模块
注意力机制8
注意力机制8相关性通过词与词之间的关系来更好地理解当前词的意思
注意力机制8点积双线性多重感知机
注意力机制8注意力图查询向量键向量
注意力机制8缩放Soft-max
注意力机制8
注意力机制8并行计算
注意力机制8
注意力机制8
注意力机制8
注意力机制8缩放Soft-max
注意力机制8
注意力机制8需要学习的参数
注意力机制82.多头注意力模块
注意力机制8
注意力机制8
注意力机制8=0=0=03.掩码多头注意力模块在推理过程中,编码器在生成当前token时,往往只能获取之前token的信息
注意力机制8缩放Soft-max
注意力机制80000001111111011001000构造掩码矩阵
注意力机制8000000000000
注意力机制84.位置编码在自注意力模块中缺乏句子词序位置编码:每个位置有一个独一无二的位置向量手工设计的也可以是学习得到的
注意力机制8/abs/2003.09229
2 目录oTransformerl注意力机制l编码器-解码器结构l大模型中的编码器-解码器结构o编码器结构----BERT家族lBERT结构l预训练策略lBERT的变体o解码器结构----GPT家族lGPT结构l自回归预训练l后续改进o思考
编码器-解码器结构31.编码器编码器Transformer中的编码器
编码器-解码器结构4Transformer块Transformer块Transformer块…………多头注意力模块FCFCFCFC前向传播
编码器-解码器结构5多头注意力模块normFCFCnorm…norm均值标准差层归一化/abs/1607.06450残差连接
编码器-解码器结构62.解码器解码器编码器BOS狗Dogslikeballs球0.1狗0.8欢0.0喜0.0……分布词汇表大小Vsoftmaxmax
喜max编码器-解码器结构7解码器编码器BOS狗欢喜欢球Dogslikeballs狗maxmaxmax输入的是解码器的输出Transformer中的解码器
编码器-解码器结构8o解码器需要自己决定生成的目标句的长度o实际上:机器并不能确定正确的输出长度喜max解码器编码器BOS狗欢球类喜欢球Dogslikeballs狗maxmaxmaxmax……会一直持续下去softmax
编码器-解码器结构9解码器编码器BOS狗Dogslikeballs球0.1狗0.0欢0.0喜0.0……EOS0.8分布softmaxmax解码器BOSsoftmaxmaxEOS喜欢球maxmaxmax喜狗欢球
编码器-解码器结构10在训练的过程中,不仅降低模型并行程度,使得训练时间变长,而且训练更加困难喜max解码器编码器BOS狗欢球EOS喜欢球Dogslikeballs狗maxmaxmaxmaxGroundTruthTeacherForcing:使用GroundTruth作为输入
编码器-解码器结构为什么需要掩码?11
编码器-解
您可能关注的文档
- 大模型原理与技术-课件 chap1 绪 论.pptx
- 大模型原理与技术-课件 chap2 深度学习基础.pptx
- 大模型原理与技术-课件 chap3 自然语言处理.pptx
- 大模型原理与技术-课件 chap5 大模型训练与优化.pptx
- 大模型原理与技术-课件 chap6 大模型微调.pptx
- 大模型原理与技术-课件 chap7 大模型提示工程.pptx
- 大模型原理与技术-课件 chap8 高效大模型策略.pptx
- 大模型原理与技术-课件 chap9 单模态通用大模型.pptx
- 大模型原理与技术-课件 chap10 多模态通用大模型.pptx
- 大模型原理与技术-课件 chap11 大模型评测.pptx
文档评论(0)