网站大量收购闲置独家精品文档,联系QQ:2885784924

DeepSeek能力解读应用侧影响分析.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

DeepSeek能力解读应用侧影响分析

2024年政府工作报告提出深化大数据、人工智能等研发应用,开展“人工智能+”行动,如何推进大模型在各行业、各场景的应用落地成为各方关注的重点,对大模型的需求也达到了空前的高度。在美方严格限制对华芯片输出的情况下,DeepSeek能够以较低的成本比肩甚至超越世界顶尖级别的模型性能,通过大量的技术创新,在节约显存和计算资源方面表现出色,DeepSeek的开源也极大地促进了AI技术的普惠化,增强了我国在全球人工智能领域的影响力和话语权。此文旨在针对各方感兴趣的问题对DeepSeek的能力和优势进行解读,并对其在大模型应用侧的影响进行简要分析,供各方参考。

DeepSeek(深度求索)企业简介

DeepSeek(深度求索)是一家专注于人工智能技术的中国公司,致力于大模型及相关应用工具的研发。

全称:杭州深度求索人工智能基础技术研究有限公司

成立时间:2023年7月17日

总部地点:浙江省杭州市

注册资本:1000万元人民币

母公司:幻方量化,知名私募量化投资公司

创始人:梁文峰,幻方量化的联合创始人

融资情况:半年内完成数亿元融资,投资方包括红杉资本、高瓴资本等

深度求索创始团队已在人工智能领域深耕多年,在2016年左右的大数据/机器学习的浪潮中即开始为幻方量化提供AI能力支撑,在该领域具备着丰富的积累。

DeepSeek核心产品分析

DeepSeek备受关注的是DeepSeek-V3(通用模型)、DeepSeek-R1(推理模型)两款MoE大模型,R1在V3基础上开发,两者参数量均为671B;在各项benchmark中均达到国际先进水平,在数学、代码开发等方面的能力更是超过OpenAI同类型产品。其它产品还有Deepseek-coder、Deepseek-math、Janus-Pro等,适用于编码、数学、文生图等场景。

DeepSeek-V3:

DeepSeek-V3为快速响应模型,基于概率预测给出答案。在通用NLP任务(如MMLU、GPQA)中表现优异,适合内容创作、长文本生成等场景,推理成本相较于R1更底。

DeepSeek-R1:

DeepSeek-R1为慢速思考模型,基于思维链推导最终生成答案,推导过程透明且具备一定参考意义。在推理任务中表现比V3更为突出,在AIME2024、MATH-500等测试中超越了OpenAI的o1模型,在科研、数据分析、代码生成等复杂的设计、推理密集型场景具备广阔的应用空间;推理成本相较于V3高;此外还开源1.5B-70B蒸馏模型,适合轻量化部署,这些轻量化模型也具备不错的性能,比肩甚至超越OpenAI-o1-mini等轻量化模型。

DeepSeek-V3/R1模型优势

除了国际领先的性能外,DeepSeek-V3/R1两款大模型有着诸多架构及技术创新,形成了诸多优势,引起国内外关注,可总结为以下三点。

训练成本低、效率高

和国内外同类型产品相比,DeepSeek的训练成本大幅降低,V3训练成本仅为557.6万美元,仅使用2048张H800GPU卡,相较Llama3节省了80%的GPU资源

这得益于模型研发团队的技术创新以及对AI领域前沿技术的实现与整合:

HAI-LLM训练框架:DeepSeek自研训练框架,支持数据并行、张量并行、流水线并行、序列并行等多种并行方式,使训练集群能够更加充分的利用算力资源,增强了训练集群的可扩展性。针对荧火集群的特性,HAI-LLM自研了高性能算子(haiscale),能够极大优化大模型训练的显存效率和计算效率。

FP8混合精度训练:DeepSeek首次在超大规模模型上成功应用了FP8混合精度训练技术,通过块量化和高精度累加技术,显著降低了GPU的显存占用。

DualPipe算法:通过重叠计算和通信阶段、采用双向流水线调度以及优化跨节点通信,该算法显著提高了大规模分布式训练的效率,降低了通信开销,并支持模型的进一步扩展。

强化学习训练:DeepSeek-R1系列模型通过大规模强化学习显著提升了推理能力,无需依赖传统的监督微调(SFT)作为初步步骤,而是让模型通过试错和奖励机制自我演化,从而发展出强大的推理能力。强化学习的创新应用减少了训练数据量的需求,降低了训练用数据的获取成本。

无辅助损失负载均衡策略:引入了无辅助损失的负载均衡策略,动态调整架构中的专家负载,提高集群效率。

推理成本低、效率高

和国内外同类型产品相比,DeepSeek大模型也有着较低的使用成本,官方公布的DeepSeek-V3的API服务每百万输出tokens8元,DeepSeek-R1的API服务每百万输出tokens16元,约为OpenAI同类型大模型(o1)的1/25。这得益于以下技术的应用创新:

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档