计算机行业深度研究：为什么DeepSeek最受益方向是云产业链.docxVIP

下载本文档

2
0
约1.94万字
约 26页
2025-02-21 发布于北京
举报
版权申诉

计算机行业深度研究：为什么DeepSeek最受益方向是云产业链.docx

1、本文档共26页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DeepSeek给予云厂商低门槛部署“杀手级”应用机会，市场需求有望迎来广阔机遇 3

创新技术架构：打破传统内存和算力瓶颈 3

DeepSeek突破硬件限制，算力“卖铲人”市场全面打开 5

云厂商是DeepSeek能力的“放大器”：充足的算力“弹药”与用户覆盖能力 8

海量算力的重新定价拉开算力平价时代序幕 8

云厂商平台优势明显，阈值上限再度打开 10

云服务厂商成为心向往之 12

重点公司梳理 15

金山云：知名独立云服务商 15

优刻得：国产方案+全线云产品积淀 16

顺网科技：国内边缘算力领军者 16

网宿科技：专注边缘计算+全球部署 17

深信服：混合云架构+全渠道战略 18

青云科技：混合云先行者+智算生态矩阵 19

三六零：专家协作模型云协同+AI安全护航 20

金山办公：云办公行业领先者发挥新质生产力作用 21

萤石网络：以云为重，终端+AI的两翼齐飞 22

软通动力：天璇AI平台获DeepSeek优化能力跃迁 23

科大讯飞：讯飞星火深耕AI教育领域 24

风险提示 26

插图目录 27

表格目录 27

DeepSeek给予云厂商低门槛部署“杀手级”应用机会，市场需求有望迎来广阔机遇

创新技术架构：打破传统内存和算力瓶颈

DeepSeek通过多方面创新实现在低算力的同时性能优异。DeepSeek模型对算力要求相比以往大模型大幅降低，主要得益于其在架构设计、训练策略、算法优化以及硬件适配等多方面的创新。

多头潜注意力（MLA）、深度求索混合专家系统（DeepSeekMoE）的创新架构显著降低训练和推理时的内存占用和计算量。传统计算方式存在对KV矩阵重复计算的问题，这不仅浪费了大量的计算资源，还会导致显存消耗过大，影响模型的运行效率。而MLA技术巧妙地解决了这个难题，它通过独特的算法设计，减少了对KV矩阵的重复计算，大大降低了显存的消耗。而MOE技术将模型分解为多个专家模型和一个门控网络，门控网络根据输入数据的特点，智能地选择合适的专家模型来处理，这样不仅减少了知识冗余，还提高了参数利用效率。在自然语言处理的语言模型任务中，使用MOE结构的DeepSeek模型可以用相对较少的参数，保持甚至提升语言生成的质量，同时显著降低训练和推理时的内存占用和计算量，根据CSDN，DeepSeekMoE在保持性能水平的同时，实现了相较传统MoE模型40%的计算开销降低。

图1：MLA及DeepSeekMOE基础架构

DeepSeek-V3论文，

DeepSeek-R1在继承了V3的创新架构的基础上，在后训练阶段大规模使用了强化学习技术，自动选择有价值的数据进行标注和训练，减少数据标注量和计算

资源浪费，并在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，DeepSeek在AIME2024测评中上获得79.8%的pass@1得分，略微超过OpenAI-o1；在MATH-500上，获得了97.3%的得分，与OpenAI-o1性能相当，并且显著优于其他模型。。

图2：DeepSeek-R1系列模型性能对比

DeepSeek官方公众号，

DeepSeek的蒸馏技术为模型的广泛运用打开想象空间。模型蒸馏

（KnowledgeDistillation）是一种将大型复杂模型（教师模型）的知识迁移到小型高效模型（学生模型）的技术。在深度学习领域，模型参数数量通常被视为衡量模型复杂度和能力的一个重要指标，一般认为参数越多，模型能够学习到的知识和模式就越丰富，性能也就越强。然而，大参数模型也带来了诸多问题，如训练成本高昂，需要大量的计算资源和时间；部署和运行时对算力要求极高，限制了其在一些资源有限场景下的应用。

图3：蒸馏的技术原理

CSDN，

DeepSeek的蒸馏模型在计算资源、内存使用和推理速度方面都实现了显著

的优化。蒸馏模型的参数量大幅减少，例如DeepSeek-R1-Distill-Qwen-7B的参数量仅为7B，相比原始的DeepSeek-R1（671B参数），计算复杂度显著降低。由于参数量的减少，蒸馏模型在内存占用方面也表现出色。且DeepSeek的蒸馏模型在推理速度上实现了显著提升。例如，DeepSeek-R1-Distill-Qwen-32B在处理复杂的推理任务时，推理速度比原始模型提高了约50倍。

且在多个基准测试中，DeepSeek的蒸馏模型表现优异。例如，DeepSeek-R1-Distill-Qwen-7B在AIME2024