网站大量收购闲置独家精品文档,联系QQ:2885784924

计算机 行业专题报告 DeepSeek-R1:强化学习+知识蒸馏,比肩o1 20250122 -财通证券.pdfVIP

计算机 行业专题报告 DeepSeek-R1:强化学习+知识蒸馏,比肩o1 20250122 -财通证券.pdf

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

下载日志已记录,仅供内部参考,股票报告网

计算机/行业专题报告/2025.01.22

DeepSeek-R1:强化学习+知识蒸馏,比肩o1

证券研究报告

投资评级:看好(维持)核心观点

最近12月市场表现❖DeepSeek-R1发布,对标OpenAIo1正式版。1月20日,DeepSeek正式

发布一系列DeepSeek-R1模型,包括DeepSeek-R1-Zero、DeepSeek-R1和

计算机沪深300上证指数DeepSeek-R1-Distill系列。DeepSeek-R1模型推理能力优异,基准测试表现与

49%OpenAI-o1-1217相当,且API服务定价远低于OpenAI同类产品。

36%

22%❖大规模强化学习,激发大模型推理潜能:DeepSeek-R1-Zero在技术路线上

9%实现了突破性创新,成为首个完全摒弃监督微调环节、完全依赖强化学习训练

-5%的大语言模型,证明了无监督或弱监督学习方法在提升模型推理能力方面的

-18%巨大潜力。在此基础上,DeepSeek-R1对R1-Zero进行了改进。通过引入冷启

动数据,并历经推理导向强化学习、拒绝采样、监督微调以及全场景强化学习

的多阶段训练,充分发挥了强化学习的自学习和自进化能力。

分析师杨烨

SAC证书编号:S0160522050001

yangye01@❖知识蒸馏技术,让小模型也能“聪明”推理:DeepSeek团队深入探索了

将R1的推理能力蒸馏到更小模型中的潜力,发现经过R1蒸馏的小模型在推

理能力上实现了显著提升,甚至超过了在这些小模型上直接进行强化学习的

相关报告效果,证明了R1学到的推理模式具有很强的通用性和可迁移性,能够通过蒸

1.《一文读懂美国BIS必威体育精装版禁令》

馏有效传递给其他模型。这些结论为业界提供了新的启示:对小模型而言,蒸

2025-01-19

馏优于直接强化学习,大模型学到的推理模式在蒸馏中得到了有效传递。

2.《大模型系列报告(一):Transformer

架构的过去、现在和未来》2025-01-

❖DeepSeek-R1高性价比API定价,极具商业化落地潜力:DeepSeek-R1

19

API服务定价为每百万输入tokens1元(缓存命中)/4元(缓存未命中),每

3.《电力信息化研究框架:(一)总章》

百万输出tokens16元,远低于可比大模型API服务。DeepSeek-R1的高性价

2025-01-14

比API定价有助于开发者在使用后加速模型的功能迭代,从而解决目前模型

文档评论(0)

186****0576 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5013000222000100

1亿VIP精品文档

相关文档