- 1、本文档共40页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
单模态通用大模型魏明强、宫丽娜计算机科学与技术学院智周万物?道济天下
oLLaMA:一种自然语言处理大模型技术l研究背景l模型结构l训练方法l使用方法oSAM:一种图像分割大模型技术l研究背景l任务定义l模型架构l训练方法l使用方法 目录2
oLLaMA:一种自然语言处理大模型技术l研究背景l模型结构l训练方法l使用方法oSAM:一种图像分割大模型技术l研究背景l任务定义l模型架构l训练方法l使用方法 目录3
oLLaMA是MetaAI公司在2023年2月发布的开源大模型,在开放基准上有着非常出色的表现,是迄今为止最流行的开源语言模型之一。随后,Meta推出了LLaMA2,该模型实现了更为优越的性能表现,甚至可以与ChatGPT等闭源模型相媲美。o同期谷歌的PaLM大模型,OpenAI的GPT-4都采用闭源的方式,不能从源码来剖析模型的结构,LLaMA的开源降低了大模型的研究门槛,后续许多大模型都是借鉴或沿用了LLaMA的模型框架。 开源大模型现状4YangJ,JinH,TangR,etal.Harnessingthepowerofllmsinpractice:Asurveyonchatgptandbeyond[J].ACMTransactionsonKnowledgeDiscoveryfromData,2024,18(6):1-32.
oLLaMA:一种自然语言处理大模型技术l研究背景l模型架构l训练方法l使用方法oSAM:一种图像分割大模型技术l研究背景l任务定义l模型架构l训练方法l使用方法 目录5
LLaMa模型架构o与其他自然语言大模型一样,LLaMA的模型架构采用了Transformer架构。但做出了几点改进:预先归一化、SwiGLU激活函数和旋转位置编码;并在LLaMA2中使用了分组查询注意力机制。o预先归一化[GPT-3]-为了提高训练的稳定性,LLaMA对每个Transformer层的输入进行归一化,而不是输出进行归一化-使用了RMS归一化方法oSwiGLU激活函数[PaLM]-将常规的ReLU激活函数换为了SwiGLU激活函数o旋转位置编码[GPTNeo]-将绝对位置编码换为了旋转位置编码(RoPE)-核心思想是通过绝对位置编码的方式实现相对位置编码o分组查询注意力机制-为了进一步减少计算开销,将多头注意力机制(MHA)替换为了分组查询注意力机制(GQA)-是MHA与多查询注意力机制(MQA)的折中方案6
oLLaMA:一种自然语言处理大模型技术l研究背景l模型架构l训练方法l使用方法oSAM:一种图像分割大模型技术l研究背景l任务定义l模型架构l训练方法l使用方法 目录7
预训练o预训练使用了七种来自公开来源的数据l预训练方法与GPT-3,PaLM等语言大模型类似,通过预测上下文信息来进行自监督学习l最大的650亿参数量模型需要使用2048张NVIDIAA100GPU训练21天8
微调oLLaMA2中,作者团队进一步利用人工标注的数据对专为对话场景设计的LLaMA2-Chat模型进行微调,主要采用了有监督微调和RLHF两种技术。l在有监督微调环节中,作者团队标注了27540条数据用于微调,这些数据都是由人工撰写提示和回答,包括有用性和安全性两种标注。这里的有用性指的是LLaMA2-Chat如何回应以满足用户的请求和提供所需的信息,而安全性则关注LLaMA2-Chat的回应是否安全。9
微调o在RLHF环节中,目标是使初步微调过的模型的输出更符合人类偏好并遵循指令。为了实现这一目标,Meta首先收集了一系列反馈了人类偏好的数据,并将这些数据用于奖励建模。l人类偏好数据收集:作者团队选择了二元比较协议来标注样本,因为这样能最大化收集到数据的多样性。在整个标注过程中,首先要求标注人员写出一个提示,再在两个采样出的模型回答中基于给定的标准标注更为偏好的一个,并给出4个不同的偏好等级。与监督微调相似,在此过程中需要同时关注模型回答的有用性和安全性,并额外标注了一个安全性标签。l奖励建模:奖励模型将模型的回答和提示作为输入,输出一个标量分数来代表模型回答的质量。利用这样的分数来作为奖励,便可以在RLHF过程中优化LLaMA2-Chat来将其与人类偏好对其,并提高有用性和安全性。鉴于已有研究发现单个奖励模型会在有用性和安全性上做出权衡,从而很难在两者上表现得都很好,作者团队分别训练了两个奖励模型来优化有用性和安全性。10
oLLaMA:一种自然语言处理大模型技术l研究背景l模型架构l训练
您可能关注的文档
- 大模型原理与技术-课件 chap1 绪 论.pptx
- 大模型原理与技术-课件 chap2 深度学习基础.pptx
- 大模型原理与技术-课件 chap3 自然语言处理.pptx
- 大模型原理与技术-课件 chap4 大模型网络结构.pptx
- 大模型原理与技术-课件 chap5 大模型训练与优化.pptx
- 大模型原理与技术-课件 chap6 大模型微调.pptx
- 大模型原理与技术-课件 chap7 大模型提示工程.pptx
- 大模型原理与技术-课件 chap8 高效大模型策略.pptx
- 大模型原理与技术-课件 chap10 多模态通用大模型.pptx
- 大模型原理与技术-课件 chap11 大模型评测.pptx
文档评论(0)