- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
中信建投计算机|DeepSeek核心十问十
1、模型发展与用户增长
模型迭代迅速:DeepSeek基于开源模型路线发展,2023年11月2日开发首个
大模型,之后陆续推出以LLaMA和MoE架构为主的通用大模型以及多模态模
型。其迭代速度较快,平均三个月有一个中大型版本更新,最长不超六个月。
这种快速迭代使模型能紧跟技术发展,不断优化性能,满足用户和市场的新需
求。
用户量增长显著:在推出API的V3.2.1版本后,DeepSeek的日均下载量增长迅
速。在2024年GPT-4推出前,访问量约200到400多万。春节期间后,月活
达到1500万,且在发布第18天就实现这一成绩,相比ChatGPT上线244天才
达到1500万DAU有大幅提升。这表明DeepSeek在用户获取方面成效显著,反
映出其在市场上的吸引力和竞争力不断增强。
2、模型性能表现
单模态推理能力出色:DeepSeek的RE在推理能力上基本与OpenAIGPT-4相
当,完整版GPT-4仍有差距。在教育导向的知识任务中能达到90.8的标准,
优于V3;中英文有哪些信誉好的足球投注网站和数据分析方面,在无安全RE的情况下准确率达70%;
数学能力与GPT-4相当,优于其他非推理模型;编码能力也有较高分数。在与
多个版本模型对比中,英文、代码、数学及中文能力优秀,尤其数学和中文能
力明显领先。
多模态能力良好:春节期间推出的多模态模型在多模态基础理解、模型生成的
视觉编码流方面表现较好,图文生成能力在密集指令阶段出色。R1已达到
OpenAI的O1水平,较O3模型虽有差距,但在O1端实现突破。多模态模型的
良好表现证明了DeepSeek图像理解和生成解耦思路的可行性,为模型发展提供
了新方向。
3、训练成本优势
成本大幅降低:根据公开资料,通用及推理模型成本较OpenAI的O1同类型成
本下降接近十分之一。例如,DeepSeekV3的token收入变为0.5,每百万token
为8;R1的API每百万输出模型为16元,而OpenAI的O1每百万输出模型为
60美元。V3总训练成本557.6万美元,以H800算力计算,训练阶段不到两个
月,耗时266.4万个GPU小时,加上其他需求共278.8万个GPU小时;而O1
按2.5万张卡A100计算,至少需3.2万张卡90天。
成本降低原因:DeepSeek通过多种方式降低训练成本。采用DeepSeek的MOE
架构,用更细粒度专家模型和稠密模型提高计算利用率、减少激活参数量;V3
模型采用MILA算法,通过机制联合压缩助力域限制减少TPU缓存、降低计算
量;硬件端框架实现流水线定型,提高GPU应用速度;采用FP8数据格式进行
细颗粒度混合精度框架提升训练效率。
4、技术架构创新
核心技术优势:V3的技术革命核心是多头注意力模型MHA,其通过投影方式
存储token信息,减少缓存需求,降低内存消耗。MoE模型利用门控技术判断
专家参与情况,采用更细粒度专家隔离共享专家,解决专家模型复杂不平衡问
题,提升效率并积累参数进行推理。MTP模型将多单token生成转为多模token
生成,优化算法,通过增加额外token保证因果性,提升训练效率。
架构优化策略:V3在访问技术架构上进行优化,设计并行管道,通过前后向计
算和通信叠加提升效率;采用FP8混合训练架构,关键战略用原始数据训练保
持稳定,其他采用汇编代替标准扩大方案实现硬件优化、减少冗余。RL证明纯
强化学习对模型推理能力有提升作用,能解决大模型幻觉问题,还为scaling
law提供新思路,未来可能成为模型核心训练思路。
5、数据层面特性
合成数据广泛应用:在大模型训练中,合成数据重要性日益提高。以GPT-3为
例,监督微调阶段借助RL模型生成的样本数据筛选高质量数据用于训练;推理
训练阶段,RL冷启动利用RL-zero生成和人工标注微调,微调阶段使用大量相
关样本;小模型蒸馏和多模态模型也广泛使用合成数据。这表明合成数据在模
型训练各阶段都发挥着重要作用。
合成数据应用趋势:合成数据的应用符合新研究趋势,通过自适应策略优化算
法,纯强化学习摆脱人类经验限制,挖掘数据价值,助力模型向AGI进化。未
来合成数据在数据集中占比将越来越高,其应用将推动模型不断发展和优化,
为模型性能提升提供有力支持。
6、ScalingLaw分析
ScalingLaw有效性:Scalinglaw
您可能关注的文档
最近下载
- 湖南美术出版社四年级下册书法教案2套(完整版).pdf
- 高考英语写作之句型转换练习(含答案)-2025届高三英语二轮复习.docx VIP
- 定制家具营销方案.docx VIP
- 《柴油机电控系统硬件在环仿真平台开发技术规范》标准文本附编制说明.pdf
- 2025人教版新教材三年级下册英语全册精品教案.docx
- 中国农村给水工程规划C设计手册(目录).doc
- (GBT31710-2015休闲露营地建设与服务规范.docx VIP
- 2025年八省联考地理试卷分析及复习备考策略指导(深度课件).pdf
- 产褥期卫生指导与保健PPT课件.pptx VIP
- 2024年吉林省高考英语试卷(含答案解析)+听力音频.docx
文档评论(0)