DeepSeek能力解读应用侧影响分析.docx

下载文档

0
0
约4.25千字
约 7页
2025-02-14 发布于山西
举报
版权申诉
保障服务

DeepSeek能力解读应用侧影响分析.docx

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

DeepSeek能力解读应用侧影响分析

2024年政府工作报告提出深化大数据、人工智能等研发应用，开展“人工智能+”行动，如何推进大模型在各行业、各场景的应用落地成为各方关注的重点，对大模型的需求也达到了空前的高度。在美方严格限制对华芯片输出的情况下，DeepSeek能够以较低的成本比肩甚至超越世界顶尖级别的模型性能，通过大量的技术创新，在节约显存和计算资源方面表现出色，DeepSeek的开源也极大地促进了AI技术的普惠化，增强了我国在全球人工智能领域的影响力和话语权。此文旨在针对各方感兴趣的问题对DeepSeek的能力和优势进行解读，并对其在大模型应用侧的影响进行简要分析，供各方参考。

DeepSeek（深度求索）企业简介

DeepSeek（深度求索）是一家专注于人工智能技术的中国公司，致力于大模型及相关应用工具的研发。

全称：杭州深度求索人工智能基础技术研究有限公司

成立时间：2023年7月17日

总部地点：浙江省杭州市

注册资本：1000万元人民币

母公司：幻方量化，知名私募量化投资公司

创始人：梁文峰，幻方量化的联合创始人

融资情况：半年内完成数亿元融资，投资方包括红杉资本、高瓴资本等

深度求索创始团队已在人工智能领域深耕多年，在2016年左右的大数据/机器学习的浪潮中即开始为幻方量化提供AI能力支撑，在该领域具备着丰富的积累。

DeepSeek核心产品分析

DeepSeek备受关注的是DeepSeek-V3（通用模型）、DeepSeek-R1（推理模型）两款MoE大模型，R1在V3基础上开发，两者参数量均为671B；在各项benchmark中均达到国际先进水平，在数学、代码开发等方面的能力更是超过OpenAI同类型产品。其它产品还有Deepseek-coder、Deepseek-math、Janus-Pro等，适用于编码、数学、文生图等场景。

DeepSeek-V3：

DeepSeek-V3为快速响应模型，基于概率预测给出答案。在通用NLP任务（如MMLU、GPQA）中表现优异，适合内容创作、长文本生成等场景，推理成本相较于R1更底。

DeepSeek-R1：

DeepSeek-R1为慢速思考模型，基于思维链推导最终生成答案，推导过程透明且具备一定参考意义。在推理任务中表现比V3更为突出，在AIME2024、MATH-500等测试中超越了OpenAI的o1模型，在科研、数据分析、代码生成等复杂的设计、推理密集型场景具备广阔的应用空间；推理成本相较于V3高；此外还开源1.5B-70B蒸馏模型，适合轻量化部署，这些轻量化模型也具备不错的性能，比肩甚至超越OpenAI-o1-mini等轻量化模型。

DeepSeek-V3/R1模型优势

除了国际领先的性能外，DeepSeek-V3/R1两款大模型有着诸多架构及技术创新，形成了诸多优势，引起国内外关注，可总结为以下三点。

训练成本低、效率高

和国内外同类型产品相比，DeepSeek的训练成本大幅降低，V3训练成本仅为557.6万美元，仅使用2048张H800GPU卡，相较Llama3节省了80%的GPU资源

这得益于模型研发团队的技术创新以及对AI领域前沿技术的实现与整合：

HAI-LLM训练框架：DeepSeek自研训练框架，支持数据并行、张量并行、流水线并行、序列并行等多种并行方式，使训练集群能够更加充分的利用算力资源，增强了训练集群的可扩展性。针对荧火集群的特性，HAI-LLM自研了高性能算子（haiscale），能够极大优化大模型训练的显存效率和计算效率。

FP8混合精度训练：DeepSeek首次在超大规模模型上成功应用了FP8混合精度训练技术，通过块量化和高精度累加技术，显著降低了GPU的显存占用。

DualPipe算法：通过重叠计算和通信阶段、采用双向流水线调度以及优化跨节点通信，该算法显著提高了大规模分布式训练的效率，降低了通信开销，并支持模型的进一步扩展。

强化学习训练：DeepSeek-R1系列模型通过大规模强化学习显著提升了推理能力，无需依赖传统的监督微调（SFT）作为初步步骤，而是让模型通过试错和奖励机制自我演化，从而发展出强大的推理能力。强化学习的创新应用减少了训练数据量的需求，降低了训练用数据的获取成本。

无辅助损失负载均衡策略：引入了无辅助损失的负载均衡策略，动态调整架构中的专家负载，提高集群效率。

推理成本低、效率高

和国内外同类型产品相比，DeepSeek大模型也有着较低的使用成本，官方公布的DeepSeek-V3的API服务每百万输出tokens8元，DeepSeek-R1的API服务每百万输出tokens16元，约为OpenAI同类型大模型（o1）的1/25。这得益于以下技术的应用创新：

您可能关注的文档

文档评论（0）

4A方案 + 关注: 实名认证

服务提供商

擅长策划，|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

咨询作者（1399人已咨询）已休息

1亿VIP精品文档

更多 >

DeepSeek能力解读应用侧影响分析.docx