大模型面试题-37-大模型（LLMs）强化学习——RLHF及其变种面.pdf

下载文档

0
0
约9.73千字
约 14页
2025-04-15 发布于山东
举报
版权申诉
保障服务

大模型面试题-37-大模型（LLMs）强化学习——RLHF及其变种面.pdf

1、本文档共14页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大模型（LLMs）强化学习——RLHF及其变种面

来自：AiGC面试宝典

2024年01月27日20:47

•大模型（LLMs）强化学习——RLHF及其变种面

•一、介绍一下LLM的经典预训练Pipeline？

•二、预训练（Pre-training）篇

•2.1具体介绍一下预训练（Pre-training）？

•三、有监督微调（SupervisedTinetuning）篇

•3.1具体介绍一下有监督微调（SupervisedTinetuning）？

•3.2有监督微调（SupervisedTinetuning）的训练数据格式是什么样？

•3.3预训练（Pre-training）vs有监督微调（SupervisedTinetuning）区别？

•四、对齐（Alignment）篇

•4.1简单介绍一下对齐（Alignment）？

•五、ReinforcementLearningwithHumanFeedback(RLHF)篇

•5.1简单介绍一下RLHF流程？

•5.2如何在在预训练好的模型上进行有监督微调？

•5.3如何在有监督微调模型基础上创建一个RM模型？

•5.4如何基于RM模型使用PPO算法微调SFT模型？

•5.5instructGPT的原理，讲讲rlhf和reward？

•六、LLaMA2的RLHF篇

•6.1介绍一下LLaMA2的RLHF？

•6.2LLaMA2中MarginLoss的实现逻辑？

•6.3LLaMA2中两个RM模型的实现逻辑？

•6.4LLaMA2中拒绝采样逻辑？

•七、RLHF替代方案篇

•7.1为什么需要RLHF替代方案？

•7.2RLHF有哪些替代方案？

•替代方案1：ConstitutionalAI:HarmlessnessfromAIFeedback

•替代方案2：TheWisdomofHindsightMakesLanguageModelsBetterInstruction

Followers

•替代方案3：DirectPreferenceOptimization:YourLanguageModelisSecretlya

RewardModel

•替代方案4：ReinforcedSelf-Training(ReST)forLanguageModeling

•替代方案5：RLAIF:ScalingReinforcementLearningfromHumanFeedbackwithAI

Feedback

•八、RLHF实践篇

•8.1RLHF训练过程，怎么选取最优checkpoint？

•参考

一、介绍一下LLM的经典预训练Pipeline？

目前基于Transformerdecoder的LLM，比如ChatGPT、LLaMA、b

您可能关注的文档

文档评论（0）

189****7098 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大模型面试题-37-大模型（LLMs）强化学习——RLHF及其变种面.pdf