- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
关于DeepSeekR1的思考和启发
邱锡鹏
复旦大学/上海创智学院
2025年2月2日
OpenAIo1标志着大模型推理能力突破
o1在竞赛题目上到达了人类专家水平o1实现了AGI的第二阶段(Reasoner)
预训练时代可能即将结束,但ScalingLaw继续?
o1引入的新范式:
Scale强化学习和推理时计算
以强化学习为核心的推理模型
Agent=LLM
Action=NextToken/Step/Solution
State=LLMinputs
Policy:actionstate
强化学习大模型场景下的强化学习
Zenget.al.,ScalingofSearchandLearning:ARoadmaptoReproduceo1fromReinforcementLearningPerspective,/abs/2412.14135
以强化学习为核心的推理模型
1.PolicyInitialization:塑造推理行为
2.RewardDesign:为RL提供奖励信号
3.Search:找寻问题的最优解法
4.Learning:优化模型参数
Zenget.al.,ScalingofSearchandLearning:ARoadmaptoReproduceo1fromReinforcementLearningPerspective,/abs/2412.14135
Policy初始化(PolicyInit)
通过预训练、提示工程、监督微调让大模型模仿人类推理行为
Policy初始化的猜想:
➢预训练:通过大量富含逻辑的数学和代码文本,习得基础的逻辑推理和分析能力
➢提示工程监督微调:进一步注入类人的推理行为,具备探索复杂解空间的能力
Zenget.al.,ScalingofSearchandLearning:ARoadmaptoReproduceo1fromReinforcementLearningPerspective,/abs/2412.14135
奖励设计(RewardDesign)
从环境或者数据中学习奖励信号
Reward信号
RewardModel
您可能关注的文档
最近下载
- 2023北京清华附中高三三模英语(教师版).pdf VIP
- 钢结构工程投标书范本1.doc
- 辅警招聘公安基础知识考试题库及答案(范文) .docx VIP
- ANSI ESD S20.20-2021(完整中文版本).docx
- 辅警招聘公安基础知识考试题库及答案【推荐】.docx VIP
- 苏教版六年级下册数学第三单元第1课《解决问题的策略(1)》课件(公开课).pptx VIP
- 沪教牛津版初中英语全册单词.pdf VIP
- 2024年天津市滨海新区中考一模英语试题(解析版).pdf VIP
- 幼儿园小班科学《春天来了》课件 优质课件.pptx VIP
- 湘科版2017科学四年级下册5.2控制电路的通断 课件.pptx
文档评论(0)