- 1、本文档共64页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
人工智能算法分析新知识体系人工智能教材人工智能大模型第十一章1人工智能算法分析【ch11】人工智能大模型-教学课件
人工智能大模型
概念与现状012人工智能算法分析【ch11】人工智能大模型-教学课件
11.1.1人工智能大模型概念人工智能作为新一代产业变革的核心驱动力之一,其发展已经从“大炼模型”逐步迈向“炼大模型”的阶段。通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,从而服务更多的企业,成为当下人工智能发展的趋势。人工智能大模型指的就是那些模型参数上亿的模型,对于人工智能算法或模型来说,不同大小和类型的模型的参数不相同,所具有的能力也不尽相同。大模型相较于小模型具有参数多、网络规模大、功能强等优点。因此,一些小模型解决不了的问题或小模型很难解决的问题可以使用大模型来解决。3人工智能算法分析【ch11】人工智能大模型-教学课件
11.1.2人工智能大模型现状近年来,越来越多的科研机构和大型科研公司己经投入人工智能大模型的研究浪潮中,如谷歌人工智能实验室在2017年提出的Transfonner,之后,OpenAI在Transfonner的基础上又提出了GPT-1、GPT-2、GPT-3。因此,不管是在国内还是国外,研究人员和团队从未停止过对深度学习大模型的开发,而这也不断促进人工智能大模型发展。本章,我们将通过讲述Transfonner和GPT,使读者对人工智能大模型有全方位的认识。4人工智能算法分析【ch11】人工智能大模型-教学课件
Transformer025人工智能算法分析【ch11】人工智能大模型-教学课件
11.2.1背景减少顺序计算的目标是研究扩展神经GPU,所有这些都使用卷积神经网络作为基本构建模块,同时计算所有输入位置和输出位置的隐藏表示。在这些模型中,来自两个任意输入位置或输出位置的信号相关联所需要的操作数量随着位置之间的距离的增加而增加,对于序列卷积是线性的,对于字节网络是对数的。这使得学习远处位置之间的依赖关系变得更加困难。在Transformer中,这被减少到恒定的操作次数,尽管代价是由于平均注意力加权位置而降低了有效分辨率,但是多头注意力机制可以抵消这种影响。6人工智能算法分析【ch11】人工智能大模型-教学课件
11.2.2模型结构Transformer遵循这一整体架构,编码器和解码器采用堆叠式自注意层和点状全连接层,如图11.1所示。7人工智能算法分析【ch11】人工智能大模型-教学课件
11.2.2模型结构编码器和解码器堆叠编码器由N=6个相同层堆叠组成。每层有两个子层。第一种是多头自注意力机制,第二种是简单的全连接网络。我们在两个子层的每一个子层周围使用了剩余连接,接着进行标准化。也就是说,每个子层的输出都进行了标准化。为了促进这些剩余连接,模型中的所有子层及嵌入层都产生维度为512的输出。解码器也由N=6个相同层堆叠组成。除了每个编码器层中的两个子层,解码器还插入第三个子层,对编码器堆拔的输出执行多头注意力机制。与编码器类似,我们在每个子层周围使用剩余连接,然后进行标准化。我们还修改了解码器堆战中的自注意力子层,以防止位置关注后续位置。这种掩蔽加上输出嵌入偏移一个位置的事实,确保了位置i的预测只能依赖小于1的位置处的己知输出。018人工智能算法分析【ch11】人工智能大模型-教学课件
11.2.2模型结构自注意力机制注意力函数可以描述为将查询和一组键值对映射到输出的一种函数,其中,查询、键、值和输出都是向量。输出被计算为值的加权和,其中,分配给每个值的权重由查询与相应键的兼容性函数来计算。(1)点积注意。我们称我们的特别关注为“点积注意”,如图11.2所示。输入由维度的查询和键,以及维度的值组成。我们用所有键计算查询的点积,除以在,并应用softmax函数来获得值的权重。029人工智能算法分析【ch11】人工智能大模型-教学课件
11.2.2模型结构在实验中,我们同时计算注意函数,并将查询打包成一个矩阵Q。将键和值也打包成矩阵K和V。将输出矩阵计算为常用的两个注意函数是加法注意和点积(乘法)注意。点积注意与我们的算法相同(除了比例因子为)加法注意使用具有单个隐藏层的全连接网络来计算兼容山虽然两者在理论复杂性上相似,但在实践中,点积注意要快得多,空间效率也更高,因为它可以使用高度优化的矩阵乘法代码来实现。对于较小的值,这两种机制的表现相似,而对于较大的值,加法注意优于点积注意。我们怀疑,对于较大的值,点积的大小会变大,从而将softmax函数推到梯度极小的区域为了翩翩影响,我们将点积缩放。10人工智能算法分析【ch11】人工智能大模型-教学课件
11.2.2模型结构(2)多头注意
文档评论(0)