- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DeepSeek-R1详细解读DeepSeek-R1-Zero
和DeepSeek-R1
DeepSeek-R1爆火,今天来详细看下。
论文地址:https///deepseek-ai/DeepSeek-
R1/blob/main/DeepSeek_R1.pdf
项目地址:https//huggingface.co/deepseek-ai/DeepSeek-R1
开源复现地址:https///huggingface/open-r1
简单介绍下DeepSeek-R1的研究动机:
现有LLMs在推理任务上的改进主要依赖监督微调(SFT)和后训练(Post-Training)
方法,但这些方法需要大量人工标注数据且成本高昂。OpenAI的o1系列模型虽通过扩
展推理链(Chain-of-Thought,CoT)提升了性能,但其测试时扩展仍存在挑战。此
外,现有强化学习方法(如过程奖励模型、蒙特卡洛树有哪些信誉好的足球投注网站等)在通用推理性能上未能
达到o1系列的水平,且存在奖励过优化(rewardhacking)、有哪些信誉好的足球投注网站空间复杂等问题。
DeepSeek-R1的动机是探索纯RL方法能否在不依赖监督数据的情况下,驱动LLMs自主
进化出强大的推理能力,同时解决模型输出的可读性与语言混合问题,并验证通过蒸馏
技术实现小模型高效推理的可行性。
在该动机的基础上,DeepSeek团队提出两个模型:DeepSeek-R1-Zero(纯RL训练)和
DeepSeek-R1(结合冷启动数据与多阶段训练),以及通过蒸馏技术将推理能力迁移到小型
模型。
1
DeepSeek-R1-Zero
DeepSeek-R1-Zero旨在通过纯粹的强化学习(RL)过程提升语言模型的推理能力,
而不依赖于传统的监督微调(SFT)。
强化学习
组相对策略优化(GRPO):在传统的强化学习设置中,通常需要一个与策略模型大小
相同的批评模型来估计基线。为了降低RL训练成本,DeepSeek-R1-Zero采用了GRPO
方法。
对于每个问题q,GRPO从旧策略中采样一组输出,然后通过最大
化目标函数来优化策略模型:
其中ϵ和β是超参数,分别控制裁剪范围和KL散度的权重,是优势值,计算方式如下:
是第i个输出对应的奖励,而均值和标准差是基于整个组的奖励计算得出的。这种标
准化处理有助于稳定训练过程,并使得不同输出间的比较更加公平。
关于旧策略和一组输出的解读:
旧策略():在强化学习(RL)的上下文中,“旧策略”指的是在当前训练迭代之
前的那个策略版本。具体来说,在RL过程中,模型会不断地更新其策略以优化性能指
标。每一次更新都会产生一个新的策略参数θ,而这个新策略就会成为下一次迭代中的
“旧策略”。因此,旧策略并不是指预训练模型本身,而是指在当前训练循环开始前最
后一次使用的策略版本。
一组输出():对于给定的问题q(即环境状态或任务),从旧策略
中采样一组输出意味着基于该旧策略为这个问题生成多个可能的解决方案或响应。
每个输出都代表了根据旧策略对特定输入采取的一系列行动后的结果或响应。换句话
说,一组输出确实是指同一个问题,模型根据旧策略进行多次不同的尝试或模拟,每次
尝试得到一个输出。
奖励建模
奖励信号直接决定了RL算法的优化方向。DeepSeek-R1-Zero采用基于规则的奖励,主
要包括以下两种类型:
准确性奖励:用于评估响应是否正确。例如,在具有确定性结果的数学问题中,模型
需要以指定格式(例如在方框内)提供最终答案,从而能够基于规则可靠地验证正确
性。
格式奖励:强制模型将思考过程置于特定标签内(如think和/think),以确保
输出结构的一致性。
训练模板
为了训练DeepSeek-R1-Ze
您可能关注的文档
- 2025 DeepSeek 火爆背后的核心技术:知识蒸馏技术.pdf
- 2025 DeepSeek:知识蒸馏技术赋能强大性能.pdf
- 2025 DeepSeek-V3三个关键模块详细解读:MLA+MoE+MTP.pdf
- DeepSeek:大模型(LLM)蒸馏技术解析:应用、实现.pdf
- DeepSeek-V3关键技术之一:DeepSeekMoE的详解.pdf
- 大模型5项核心技术:Transformer架构+微调+RLHF+知识蒸馏+安全.pdf
- 2024年全球及中国人脑解剖模型行业头部企业市场占有率及排名调研报告.docx
- 2024-2030全球噪声测试软件行业调研及趋势分析报告.docx
- 2024-2030全球陶瓷膜检测机行业调研及趋势分析报告.docx
- 2024-2030全球视觉天文学滤镜行业调研及趋势分析报告.docx
- 2024-2030全球实体瘤靶点蛋白行业调研及趋势分析报告.docx
- 2024-2030全球上肢悬挂架行业调研及趋势分析报告.docx
- 江西丰城宁能生物质发电有限公司招聘笔试题库2025.pdf
- 2024年全球及中国漏血监测器警报系统行业头部企业市场占有率及排名调研报告.docx
- 2024-2030全球胰蛋白酶原-2检测试剂盒行业调研及趋势分析报告.docx
- 2024年全球及中国马鞍凳行业头部企业市场占有率及排名调研报告.docx
- 广东深圳市盛波光电科技有限公司招聘笔试题库2025.pdf
- 2024年全球及中国自动驾驶GPU芯片行业头部企业市场占有率及排名调研报告.docx
- 2024-2030全球藻类生物塑料行业调研及趋势分析报告.docx
- 2024年全球及中国工厂可视化软件行业头部企业市场占有率及排名调研报告.docx
最近下载
- 5年(2019-2023)中考1年模拟英语真题分项汇编(全国)专题06 阅读理解之说明文(解析版).pdf VIP
- 《会计基础》教案 第2课 会计基本假设、会计基础、会计信息质量要求和会计准则体系.doc
- 4.《望海潮》《扬州慢》比较阅读教学设计2023-2024学年统编版高中语文选择性必修下册.docx
- 熔化焊接与热切割安全技术实际操作考试.docx
- 中图版地理七下期中复习提纲.pdf VIP
- 部编版语文二年级下册全册优秀ppt课件.pptx
- 马铃薯种传土传病害.ppt VIP
- 生猪屠宰兽医卫生检验人员考试题库5份(含答案).docx
- 四川省2021年10月自考03331公共事业管理试题.doc
- 常用玻璃量器检定培训课件.pptx
文档评论(0)