网站大量收购独家精品文档,联系QQ:2885784924

大模型面试题-37-大模型(LLMs)强化学习——RLHF及其变种面.pdf

大模型面试题-37-大模型(LLMs)强化学习——RLHF及其变种面.pdf

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大模型(LLMs)强化学习——RLHF及其变种面

来自:AiGC面试宝典

2024年01月27日20:47

•大模型(LLMs)强化学习——RLHF及其变种面

•一、介绍一下LLM的经典预训练Pipeline?

•二、预训练(Pre-training)篇

•2.1具体介绍一下预训练(Pre-training)?

•三、有监督微调(SupervisedTinetuning)篇

•3.1具体介绍一下有监督微调(SupervisedTinetuning)?

•3.2有监督微调(SupervisedTinetuning)的训练数据格式是什么样?

•3.3预训练(Pre-training)vs有监督微调(SupervisedTinetuning)区别?

•四、对齐(Alignment)篇

•4.1简单介绍一下对齐(Alignment)?

•五、ReinforcementLearningwithHumanFeedback(RLHF)篇

•5.1简单介绍一下RLHF流程?

•5.2如何在在预训练好的模型上进行有监督微调?

•5.3如何在有监督微调模型基础上创建一个RM模型?

•5.4如何基于RM模型使用PPO算法微调SFT模型?

•5.5instructGPT的原理,讲讲rlhf和reward?

•六、LLaMA2的RLHF篇

•6.1介绍一下LLaMA2的RLHF?

•6.2LLaMA2中MarginLoss的实现逻辑?

•6.3LLaMA2中两个RM模型的实现逻辑?

•6.4LLaMA2中拒绝采样逻辑?

•七、RLHF替代方案篇

•7.1为什么需要RLHF替代方案?

•7.2RLHF有哪些替代方案?

•替代方案1:ConstitutionalAI:HarmlessnessfromAIFeedback

•替代方案2:TheWisdomofHindsightMakesLanguageModelsBetterInstruction

Followers

•替代方案3:DirectPreferenceOptimization:YourLanguageModelisSecretlya

RewardModel

•替代方案4:ReinforcedSelf-Training(ReST)forLanguageModeling

•替代方案5:RLAIF:ScalingReinforcementLearningfromHumanFeedbackwithAI

Feedback

•八、RLHF实践篇

•8.1RLHF训练过程,怎么选取最优checkpoint?

•参考

一、介绍一下LLM的经典预训练Pipeline?

目前基于Transformerdecoder的LLM,比如ChatGPT、LLaMA、b

文档评论(0)

189****7098 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档