- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DeepSeek能力解读应用侧影响分析
2024年政府工作报告提出深化大数据、人工智能等研发应用,开展“人工智能+”行动,如何推进大模型在各行业、各场景的应用落地成为各方关注的重点,对大模型的需求也达到了空前的高度。在美方严格限制对华芯片输出的情况下,DeepSeek能够以较低的成本比肩甚至超越世界顶尖级别的模型性能,通过大量的技术创新,在节约显存和计算资源方面表现出色,DeepSeek的开源也极大地促进了AI技术的普惠化,增强了我国在全球人工智能领域的影响力和话语权。此文旨在针对各方感兴趣的问题对DeepSeek的能力和优势进行解读,并对其在大模型应用侧的影响进行简要分析,供各方参考。
DeepSeek(深度求索)企业简介
DeepSeek(深度求索)是一家专注于人工智能技术的中国公司,致力于大模型及相关应用工具的研发。
全称:杭州深度求索人工智能基础技术研究有限公司
成立时间:2023年7月17日
总部地点:浙江省杭州市
注册资本:1000万元人民币
母公司:幻方量化,知名私募量化投资公司
创始人:梁文峰,幻方量化的联合创始人
融资情况:半年内完成数亿元融资,投资方包括红杉资本、高瓴资本等
深度求索创始团队已在人工智能领域深耕多年,在2016年左右的大数据/机器学习的浪潮中即开始为幻方量化提供AI能力支撑,在该领域具备着丰富的积累。
DeepSeek核心产品分析
DeepSeek备受关注的是DeepSeek-V3(通用模型)、DeepSeek-R1(推理模型)两款MoE大模型,R1在V3基础上开发,两者参数量均为671B;在各项benchmark中均达到国际先进水平,在数学、代码开发等方面的能力更是超过OpenAI同类型产品。其它产品还有Deepseek-coder、Deepseek-math、Janus-Pro等,适用于编码、数学、文生图等场景。
DeepSeek-V3:
DeepSeek-V3为快速响应模型,基于概率预测给出答案。在通用NLP任务(如MMLU、GPQA)中表现优异,适合内容创作、长文本生成等场景,推理成本相较于R1更底。
DeepSeek-R1:
DeepSeek-R1为慢速思考模型,基于思维链推导最终生成答案,推导过程透明且具备一定参考意义。在推理任务中表现比V3更为突出,在AIME2024、MATH-500等测试中超越了OpenAI的o1模型,在科研、数据分析、代码生成等复杂的设计、推理密集型场景具备广阔的应用空间;推理成本相较于V3高;此外还开源1.5B-70B蒸馏模型,适合轻量化部署,这些轻量化模型也具备不错的性能,比肩甚至超越OpenAI-o1-mini等轻量化模型。
DeepSeek-V3/R1模型优势
除了国际领先的性能外,DeepSeek-V3/R1两款大模型有着诸多架构及技术创新,形成了诸多优势,引起国内外关注,可总结为以下三点。
训练成本低、效率高
和国内外同类型产品相比,DeepSeek的训练成本大幅降低,V3训练成本仅为557.6万美元,仅使用2048张H800GPU卡,相较Llama3节省了80%的GPU资源
这得益于模型研发团队的技术创新以及对AI领域前沿技术的实现与整合:
HAI-LLM训练框架:DeepSeek自研训练框架,支持数据并行、张量并行、流水线并行、序列并行等多种并行方式,使训练集群能够更加充分的利用算力资源,增强了训练集群的可扩展性。针对荧火集群的特性,HAI-LLM自研了高性能算子(haiscale),能够极大优化大模型训练的显存效率和计算效率。
FP8混合精度训练:DeepSeek首次在超大规模模型上成功应用了FP8混合精度训练技术,通过块量化和高精度累加技术,显著降低了GPU的显存占用。
DualPipe算法:通过重叠计算和通信阶段、采用双向流水线调度以及优化跨节点通信,该算法显著提高了大规模分布式训练的效率,降低了通信开销,并支持模型的进一步扩展。
强化学习训练:DeepSeek-R1系列模型通过大规模强化学习显著提升了推理能力,无需依赖传统的监督微调(SFT)作为初步步骤,而是让模型通过试错和奖励机制自我演化,从而发展出强大的推理能力。强化学习的创新应用减少了训练数据量的需求,降低了训练用数据的获取成本。
无辅助损失负载均衡策略:引入了无辅助损失的负载均衡策略,动态调整架构中的专家负载,提高集群效率。
推理成本低、效率高
和国内外同类型产品相比,DeepSeek大模型也有着较低的使用成本,官方公布的DeepSeek-V3的API服务每百万输出tokens8元,DeepSeek-R1的API服务每百万输出tokens16元,约为OpenAI同类型大模型(o1)的1/25。这得益于以下技术的应用创新:
文档评论(0)