网站大量收购闲置独家精品文档,联系QQ:2885784924

DeepSeek R1的思考和启发_邱锡鹏.pdf

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

关于DeepSeekR1的思考和启发

邱锡鹏

复旦大学/上海创智学院

2025年2月2日

OpenAIo1标志着大模型推理能力突破

o1在竞赛题目上到达了人类专家水平o1实现了AGI的第二阶段(Reasoner)

预训练时代可能即将结束,但ScalingLaw继续?

o1引入的新范式:

Scale强化学习和推理时计算

以强化学习为核心的推理模型

Agent=LLM

Action=NextToken/Step/Solution

State=LLMinputs

Policy:actionstate

强化学习大模型场景下的强化学习

Zenget.al.,ScalingofSearchandLearning:ARoadmaptoReproduceo1fromReinforcementLearningPerspective,/abs/2412.14135

以强化学习为核心的推理模型

1.PolicyInitialization:塑造推理行为

2.RewardDesign:为RL提供奖励信号

3.Search:找寻问题的最优解法

4.Learning:优化模型参数

Zenget.al.,ScalingofSearchandLearning:ARoadmaptoReproduceo1fromReinforcementLearningPerspective,/abs/2412.14135

Policy初始化(PolicyInit)

通过预训练、提示工程、监督微调让大模型模仿人类推理行为

Policy初始化的猜想:

➢预训练:通过大量富含逻辑的数学和代码文本,习得基础的逻辑推理和分析能力

➢提示工程监督微调:进一步注入类人的推理行为,具备探索复杂解空间的能力

Zenget.al.,ScalingofSearchandLearning:ARoadmaptoReproduceo1fromReinforcementLearningPerspective,/abs/2412.14135

奖励设计(RewardDesign)

从环境或者数据中学习奖励信号

Reward信号

RewardModel

文档评论(0)

偷得浮生半日闲 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档