- 1、本文档共132页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
从理论(模型训练)到实践(模型应用)
作者:@ai呀蔡蔡(全平台同名)
目录
Contents
01
Deepseekv3和R1是怎么训练出来的
04
13个Deepseek官方提示词样例
02
DeepseekR1后提示词的变与不变
05
Deepseek实际应用场景
03
DeepseekR1四大使用技巧
06
Deepseek替代方案(在线本地部署)
注:当前手册的信息更新截至2025年2月10日
初识Deepseekv3
Deepseekv3是什么?
DeepSeekV3是一个强大的MoE语言模型(非推理型模
型)。它在数学、代码等任务上吊打其它开源模型,甚至能和闭源大佬GPT-4o、Claude-3.5-sonnet掰手腕,但训练花的钱还不到600万美元。
注:MoE,全称是Mixture-of-Expe比s,翻译成中文就是“混合专家”。你可以把它想象成一个团队,这个团队里有很多专家,每个专家都有自己的专长。当遇到一个问题时,不是所有专家都一起上,而是根据问题的类型,选择最合适的几个专家来解决。这样不仅提高了效率,还提升了性能。
数据、图表源自:DeepSeek-V3TechnicalRepo比
Deepseekv3架构
Multi-HeadLatentAttention(MLA)
V3基础架构之一,在DeepSeekV2已经验证有效。
MLA翻译成中文就是多头潜在注意力,传统模型推理时需缓存大量数据,MLA通过压缩键值对(类似精简笔记)减少内存占用,可以让模型在处理长文本时更高效。
DeepseekMOE
V3基础架构之一,同样在DeepSeekV2已经验证有效。
DeepSeekMoE在传统MoE的基础上进行了多项创新和优化,比如更精细的专家分
工、共享专家等,适配复杂任务,进而提升模型的性能和计算效率。
多Token预测(MTP)策略
V3架构创新之一。
传统模型一次预测1个词,DeepSeekV3同时预测多个词(类似预判下一步),提升数据利用效率,还能加速生成
无额外损耗的负载均衡
前面DeepSeekMoE中提到的多项创新,其中就包括V3才推出的无额外损耗的负载均衡。
简单来说,在训练过程中,DeepSeekMoE会监控每个专家的“工作量”,进而动态调整
专家使用频率,避免某些专家过劳或躺平。
Deepseekv3训练步骤和数据使用
预训练(无监督学习)无标注数据集预训练大模型基础大模型通用精调模型
预训练
(无监督学习)
精调
(监督学习)
精调
(强化学习)
推理数据:对于数学、代码、逻辑推基于规则的奖励模型:对于可以通过明确
理等需要复杂推理过程的任务,V3采用了基于R1生成的高质量推理数据非推理数据:
理等需要复杂推理过程的任务,V3采用了基于R1生成的高质量推理数据
非推理数据:对于创意写作、角色扮演、简单问答等非推理类任务,则用V2.5生成响应,并由人工标注和校验
训练数据:相比V2,V3提高了数学和编程样本的比例,同时扩展了除英语和中文之外的多语言覆盖范围
基于模型的奖励模型:对于难以通过规则进行判别的任务(例如开放式问答、创意写作),则采用基于模型的奖励模型
Deepseekv3性能表现
知识基准
通用能力:MMLU(综合知识)、GPQA(博士级难题)等测试中,超越所有开源模型,接近GPT-4o
事实性:中文事实问答(C-SimpleQA)甚至超过闭源模型,英文略逊于GPT-4o
代码与数学
代码竞赛:LiveCodeBench榜首,碾压其他模型。
数学推理:MATH-500等测试中,达到开源模型最高水平,部分超越闭源模型。
数据、图表源自:DeepSeek-V3TechnicalRepo比
初识DeepseekR1
DeepseekR1是什么?
DeepSeekR1是一个强大的推理模型,擅长处理复杂任务。它在数学、代码、自然语言推理等任务上,性能比肩OpenAI
o1正式版,小模型则超越OpenAIo1-mini;语言能力在当前独一档。
注:推理型模型(如R1、o3)会自己画草稿纸分步骤思考,生成的内容具有较高的准确性和可解释性(不代表没幻觉)。非推理模型根据预定义的指令和规则来生成内容,就是“你说啥我做啥”,
您可能关注的文档
- 2025年DeepSeek自学手册-从理论模型训练到实践模型应用.pdf
- 2024从“小众运动”到“全民热潮”解码网球人群与市场机遇.docx
- 2024年Q4中高端男装电商数据复盘.docx
- 2024年电力市场仿真优化技术进展报告-清华四川能源互联网研究院(高峰).docx
- 农业机器人现状与展望报告.docx
- 人形机器人行业研究:人形机器人,从理想走进现实.docx
- 2025年护肤趋势解码-根据谷歌有哪些信誉好的足球投注网站和抖音的热门趋势报告(英文版).docx
- 2025家电“国补”焕新 社媒研究.docx
- 2024年药品行业趋势分析报告-击壤科技.docx
- 艾瑞咨询:2024年中国威胁情报行业发展研究报告.docx
- 东海证券-轮胎行业月报:2024年高景气收官,节后开工恢复性提升.pdf
- 东吴证券-环保行业跟踪周报:欧盟终裁略下调对华生柴反倾销关税,开始跟踪SAF进口,持续推荐现金流资产.pdf
- 北京博观众智信息科技-日本保健品行业繁荣发展的背后及发展现状.pdf
- 兴业证券-电力设备行业深度报告:机器人业务打开锂电精密加工企业成长空间.pdf
- 信达证券-航空运输月度专题:1月油汇向好、国内线运力同比微增,客座率高位维稳.pdf
- 兴业证券-德昌股份-605555-家电汽零双轮驱动,多元布局兑现高成长.pdf
- 东吴证券-九方智投控股-09636.HK-基本面夯实乘A股东风,AI赋能拓成长蓝海.pdf
- 民生证券-计算机行业深度报告:DeepSeek系列报告之AI+医疗.pdf
- 兴业证券-基础化工行业周报:国常会研究提振消费及化解重点产业结构性矛盾继续关注化工核心资产及新材料成长.pdf
- 国金证券-A股投资策略周报:港股“狂飙”背后:哪些驱动因子与A股不一样?.pdf
文档评论(0)