大模型面试题-36-大模型（LLMs）强化学习面.pdf

下载文档

3
0
约2.28千字
约 2页
2025-04-15 发布于山东
举报
版权申诉
保障服务

大模型面试题-36-大模型（LLMs）强化学习面.pdf

1、本文档共2页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大模型（LLMs）强化学习面

来自：AiGC面试宝典

2024年01月27日20:47

•大模型（LLMs）强化学习面

•1简单介绍强化学习？

•2简单介绍一下RLHF？

•3.奖励模型需要和基础模型一致吗？

•4.RLHF在实践过程中存在哪些不足？

•5.如何解决人工产生的偏好数据集成本较高，很难量产问题？

•6.如何解决三个阶段的训练（SFT-RM-PPO）过程较长，更新迭代较慢问题？

•7.如何解决PPO的训练过程同时存在4个模型（2训练，2推理），对计算资源的要求较高问题？

•致谢

1简单介绍强化学习？

强化学习：（ReinforcementLearning）一种机器学习的方法，通过从外部获得激励来校正学习方向从而获得一

种自适应的学习能力。

2简单介绍一下RLHF？

基于人工反馈的强化学习（ReinforcementLearningfromHumanFeedback，RLHF）：构建人类反馈数据集，

训练一个激励模型，模仿人类偏好对结果打分，这是GPT-3后时代大语言模型越来越像人类对话核心技术。

3.奖励模型需要和基础模型一致吗？

不同实现方式似乎限制不同。（待实践确认）colossal-ai的coati中需要模型有相同的tokenizer，所以选模型只能

从同系列中找。在ppo算法实现方式上据说trlx是最符合论文的。

4.RLHF在实践过程中存在哪些不足？

1.不足点1：人工产生的偏好数据集成本较高，很难量产；

2.不足点2：三个阶段的训练（SFT-RM-PPO）过程较长，更新迭代较慢；

3.不足点3：PPO的训练过程同时存在4个模型（2训练，2推理），对计算资源的要求较高。

5.如何解决人工产生的偏好数据集成本较高，很难量产问题？

•解决方法：AI专家替代派

•代表方法：

1.RLAIF

该方法的核心在于通过AI模型监督其他AI模型，即在SFT阶段，从初始模型中采样，然后生成自我批评和修

正，然后根据修正后的反应微调原始模型。在RL阶段，从微调模型中采样，使用一个模型来评估生成的样本，

并从这个AI偏好数据集训练一个偏好模型。然后使用偏好模型作为奖励信号对RL进行训练，即RLfromAI

Feedback（RLAIF）。

1.RRHF

RRHF(RankResponsefromHumanFeedback)不需要强化学习，可以利用不同语言模型生成的回复，包括

ChatGPT、GPT-4或当前的训练模型。RRHF通过对回复进行评分，并通过排名损失来使回复与人类偏好对齐。

RRHF通过通过排名损失使评分与人类的偏好（或者代理的奖励模型）对齐。RRHF训练好的模型可以同时作为

生成语言模型和奖励模型使用

6.如何解决三个阶段的训练（SFT-RM-PPO）过程较长，更新迭代较慢问题？

•解决方法：微调数据优化派

•方法介绍：该类方法的核心在于仅仅通过优质数据集的获取和产生，以训练得到一个效果较好的

SFT模型，而无需进行RM和PPO的训练。

•代表方法：

1.LIMA

LIMA(LessIsMoreforAlignment)即浅层对齐假说，即一个模型的知识和能力几乎完全是在预训练中学习的，而

对齐则是教会它与用户交互时如何选择子分布。如果假说正确，对齐主要有关于学习方式，那么该假说的一个推

论是，人们可以用相当少的样本充分调整预训练的语言模型。因此，该工作假设，对齐可以是一个简单的过程，

模型学习与用户互动的风格或格式，以揭示在预训练中已经获得的知识和能力。

1.MAYBEONLY0.5%DATAISNEEDED

本文主要从数据角度来探讨如何降低LLM训练阶段的成本，提高数据效率。为了实现该目的，作者通过从现有

数据中识别出最有价值的核心样本来帮助模型获取下游任务的知识，并仅用少量数据来实现可比甚至更好的性

能。

7.如何解决PPO的训练过程同时存在4个模型（2训练，2推理），对计算资源的要求较高问题？

•解决方法：训练过程改造

您可能关注的文档

文档评论（0）

189****7098 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大模型面试题-36-大模型（LLMs）强化学习面.pdf