- 1、本文档共2页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大模型(LLMs)强化学习面
来自:AiGC面试宝典
2024年01月27日20:47
•大模型(LLMs)强化学习面
•1简单介绍强化学习?
•2简单介绍一下RLHF?
•3.奖励模型需要和基础模型一致吗?
•4.RLHF在实践过程中存在哪些不足?
•5.如何解决人工产生的偏好数据集成本较高,很难量产问题?
•6.如何解决三个阶段的训练(SFT-RM-PPO)过程较长,更新迭代较慢问题?
•7.如何解决PPO的训练过程同时存在4个模型(2训练,2推理),对计算资源的要求较高问题?
•致谢
1简单介绍强化学习?
强化学习:(ReinforcementLearning)一种机器学习的方法,通过从外部获得激励来校正学习方向从而获得一
种自适应的学习能力。
2简单介绍一下RLHF?
基于人工反馈的强化学习(ReinforcementLearningfromHumanFeedback,RLHF):构建人类反馈数据集,
训练一个激励模型,模仿人类偏好对结果打分,这是GPT-3后时代大语言模型越来越像人类对话核心技术。
3.奖励模型需要和基础模型一致吗?
不同实现方式似乎限制不同。(待实践确认)colossal-ai的coati中需要模型有相同的tokenizer,所以选模型只能
从同系列中找。在ppo算法实现方式上据说trlx是最符合论文的。
4.RLHF在实践过程中存在哪些不足?
1.不足点1:人工产生的偏好数据集成本较高,很难量产;
2.不足点2:三个阶段的训练(SFT-RM-PPO)过程较长,更新迭代较慢;
3.不足点3:PPO的训练过程同时存在4个模型(2训练,2推理),对计算资源的要求较高。
5.如何解决人工产生的偏好数据集成本较高,很难量产问题?
•解决方法:AI专家替代派
•代表方法:
1.RLAIF
该方法的核心在于通过AI模型监督其他AI模型,即在SFT阶段,从初始模型中采样,然后生成自我批评和修
正,然后根据修正后的反应微调原始模型。在RL阶段,从微调模型中采样,使用一个模型来评估生成的样本,
并从这个AI偏好数据集训练一个偏好模型。然后使用偏好模型作为奖励信号对RL进行训练,即RLfromAI
Feedback(RLAIF)。
1.RRHF
RRHF(RankResponsefromHumanFeedback)不需要强化学习,可以利用不同语言模型生成的回复,包括
ChatGPT、GPT-4或当前的训练模型。RRHF通过对回复进行评分,并通过排名损失来使回复与人类偏好对齐。
RRHF通过通过排名损失使评分与人类的偏好(或者代理的奖励模型)对齐。RRHF训练好的模型可以同时作为
生成语言模型和奖励模型使用
6.如何解决三个阶段的训练(SFT-RM-PPO)过程较长,更新迭代较慢问题?
•解决方法:微调数据优化派
•方法介绍:该类方法的核心在于仅仅通过优质数据集的获取和产生,以训练得到一个效果较好的
SFT模型,而无需进行RM和PPO的训练。
•代表方法:
1.LIMA
LIMA(LessIsMoreforAlignment)即浅层对齐假说,即一个模型的知识和能力几乎完全是在预训练中学习的,而
对齐则是教会它与用户交互时如何选择子分布。如果假说正确,对齐主要有关于学习方式,那么该假说的一个推
论是,人们可以用相当少的样本充分调整预训练的语言模型。因此,该工作假设,对齐可以是一个简单的过程,
模型学习与用户互动的风格或格式,以揭示在预训练中已经获得的知识和能力。
1.MAYBEONLY0.5%DATAISNEEDED
本文主要从数据角度来探讨如何降低LLM训练阶段的成本,提高数据效率。为了实现该目的,作者通过从现有
数据中识别出最有价值的核心样本来帮助模型获取下游任务的知识,并仅用少量数据来实现可比甚至更好的性
能。
7.如何解决PPO的训练过程同时存在4个模型(2训练,2推理),对计算资源的要求较高问题?
•解决方法:训练过程改造
您可能关注的文档
- 大模型面试题-5-transformers 操作篇.pdf
- 大模型面试题-4-Attention 升级面.pdf
- 大模型面试题-3-LLMs 激活函数篇.pdf
- 大模型面试题-2-Layer normalization 篇.pdf
- 大模型面试题-1-大模型(LLMs)基础面.pdf
- 大模型面试题-43-显存优化策略篇.pdf
- 大模型面试题-42-大模型(LLMs)显存问题面.pdf
- 大模型面试题-41-大模型(LLMs)LLM生成SFT数据方法面.pdf
- 大模型面试题-40-大模型(LLMs)训练集面.pdf
- 大模型面试题-39-强化学习在自然语言处理下的应用篇.pdf
- Unit7CareersLesson2CareerSkills课件高中英语北师大版选择性3.pptx
- 四川省广安第二中学高三下学期二模物理试卷.docx
- Module2Unit1ShelearntEnglish(课件)英语五年级下册3.pptx
- Unit2ie(课件)牛津英语自然拼读世界第三级 4.pptx
- Unit4Whenistheartshow_PBReadandwritetwonewkittens(课件)人教PEP版英语五年级下册 2.pptx
- Unit2WildlifeProtectionListeningandTalking课件高中英语人教版.pptx
- 黑龙江省大庆实验中学高三得分训练(二)文科综合试题.docx
- 第11课《山地回忆》教学设计-统编版语文七年级下册(1).docx
- 《和田的维吾尔》2教学文案.ppt
- 7.1力课件教科版物理八年级下册【05】.pptx
文档评论(0)