- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
内容目录
DeepSeek-V3、R1模型性能强劲“火出圈” 1
DeepSeek-V3性能卓越,比肩全球顶尖模型 1
R1模型性能对标OpenAIo1正式版 3
DeepSeek模型技术创新 5
科技巨头纷纷接入DeepSeek,推动全球AI生态发展 6
投资建议 7
风险提示 7
图目录
图1:DeepSeek-V3实现多项评测成绩领先 1
图2:DeepSeek-V3在四类测试集的评分 2
图3:DeepSeek-V3的API服务价格 3
图4:DeepSeek-R1性能比肩OpenAIo1正式版 4
图5:蒸馏小模型超越OpenAIo1-mini 4
图6:DeepSeek-V3的基本架构 5
图7:Multi-TokenPrediction(MTP)示意图 6
DeepSeek-V3、R1模型性能强劲“火出圈”
DeepSeek-V3性能卓越,比肩全球顶尖模型
2024年12月26日,公司发布全新系列模型DeepSeek-V3并同步开源,DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。DeepSeek-V3通过算法和工程上的创新,将生成吐字速度从20TPS大幅提高至60TPS,相比V2.5模型实现了3倍的提升,带来更加流畅的用户使用体验。
图1:DeepSeek-V3实现多项评测成绩领先
数据来源:DeepSeek官网,
DeepSeek-V3的百科知识、长文本分析处理、代码、数学和中文能力都遥遥领先。分项来看,DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著提升,接近当前表现最好的模型Claude-3.5-Sonnet-1022。在长文本测评中,DeepSeek-V3平均表现超越其他模型。在算法类代码场景(Codeforces),DeepSeek-V3远远领先于市面上已有的全部非o1类模型;并在工程类代码场景
(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。在美国数学竞赛
(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。
图2:DeepSeek-V3在四类测试集的评分
数据来源:DeepSeek官网,
DeepSeek-V3模型性价比极为突出。在性能上实现显著领先的同时,定价远低于市场上其他同类产品,其API服务定价调整为每百万输入tokens0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens8元。
图3:DeepSeek-V3的API服务价格
数据来源:DeepSeek官网,
R1模型性能对标OpenAIo1正式版
2025年1月20日,DeepSeek发布了推理模型DeepSeek-R1,该模型在后训练阶段大规模使用了强化学习技术,在仅仅使用极少标注数据的情况下,极大提升了模型推理能力,在数据、代码、自然语言推理等任务上,性能比肩OpenAIo1正式版。DeepSeek-R1API服务定价为每百万输入tokens1元(缓存命中)/4元(缓存未命中),每百万输出tokens16元。
图4:DeepSeek-R1性能比肩OpenAIo1正式版
数据来源:DeepSeek官网,
公司在开源DeepSeek-R1-Zero和DeepSeek-R1两个660B模型的同时,通过DeepSeek-R1的输出,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上实现了对标OpenAIo1-mini的效果。
图5:蒸馏小模型超越OpenAIo1-mini
数据来源:DeepSeek官网,
DeepSeek模型技术创新
DeepSeek-V3在DeepSeek-V2高效架构的基础上,率先采用了一种无需辅助损失的负载均衡策略,该
您可能关注的文档
- 策略深度报告:ETF主观配置策略月报,关注小盘股及强产业趋势品种ETF.docx
- 策略月报:景气回升的两大领域.docx
- 城投审批节奏分化.docx
- 城投债小幅净增,但情绪明显回落.docx
- 赤峰黄金高成长国际化黄金矿企,降本与增效下高弹性业绩释放可期.docx
- 宠物食品行业蓝挚,后起之秀,问鼎美国宠食品牌第一.docx
- 出口链行业2025年度策略:降息打开市场空间,细分赛道龙头α凸显.docx
- 传媒互联网行业1月行业月报:春节档破多项影史纪录,DeepSeek加速AI应用发展.docx
- 传媒行业点评报告:《哪吒2》成国漫IP“DeepSeek”时刻,继续布局IP.docx
- 传媒行业分析报告:春节档量价齐升刷新纪录,《哪吒2》抬高国内票房天花板.docx
- 2025年可观测性体系建设100问-博睿数据.docx
- 中国经济观察:2025年一季度.pdf.docx
- 2024年自动化行业报告:工业物联网数字化转型与智能制造.docx
- Deepseek冲击波:AI赋能加速市场聚势重构.docx
- 天津市科技创新政策要点汇编 (2024年版) .docx
- 亚洲经济分析:关于2025年的十个问题-高盛.docx
- 陆浩总经理-高能量密度固态电池关键材料-硅基负极与固态电解质.docx
- 2024年中国企业境外反垄断风险及应对策略报告-AnjieBroad安杰世泽.docx
- 教育行业:从多邻国看AI在教育行业的应用.docx
- 三七互娱2024年半年度社会责任报告.pdf
文档评论(0)