Chatting+or+Acting？——DeepSeek的突破边界与“浙大先生”的未来图景.docx

下载文档

0
0
约1.01万字
约 85页
2025-03-10 发布于北京
举报
版权申诉
保障服务

Chatting+or+Acting？——DeepSeek的突破边界与“浙大先生”的未来图景.docx

1、本文档共85页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

ChattingorActing？

—DeepSeek的突破边界与浙大先生的未来图景

陈文智

浙江大学信息技术中心

浙江大学人工智能教育教学研究中心

2025年02月17日

我也想来一套，在线用or本地部署？

这就是传说中的国运级产品吗？

DeepSeek关键词

DeepSeek突破边界

ChattingorActing

——DeepSeek的突破边界与浙大先生的未来图景

DeepSeek席卷全球

引爆全球，高性能、低成本的国产、开源大模型!

?DeepSeek-R1已发布并开源，性能对比OpenAIo1正式版。

?在目前大模型主流榜单中，DeepSeek-V3在开源模型中位列榜首，与世界上最先进的闭源模型不分伯仲。

近期因开源AI大模型和相关技术火爆全球，

近期因开源AI大模型和相关技术火爆全球，DeepSeek一度在140多个国家的应用商店下载排行首位。

DeepSeek—有史以来最快获得1亿注册用户的APP。

DeepSeek模型架构创新

——采用MoE架构并解决路由崩溃难题

DeepSeek模型架构创新

——MLA多头潜在注意力机制降低成本、提高效率

柏拉图表征假说

隐马尔卡夫链

（HMM）

神经网络时代

（RNN）

神经网络时代

（LSTM）

Transfoermer时代

（Attention）

DeepSeek模型架构创新

——MLA多头潜在注意力机制降低成本、提高效率

RNN

HMM

神经网络时代（LSTM）神经网络时代（RNN）Transfoermer时代（Attention）隐马尔卡夫链

神经网络时代

（LSTM）

神经网络时代

（RNN）

Transfoermer时代

（Attention）

DeepSeek模型架构创新

——MLA多头潜在注意力机制降低成本、提高效率

RNN

HMM

隐马尔卡夫链

（HMM）

神经网络时代

（RNN）

神经网络时代

（LSTM）

Transformer时代

（Attention）

DeepSeek模型架构创新

——MLA多头潜在注意力机制降低成本、提高效率

RNN

隐马尔卡夫链

（HMM）

神经网络时代

（RNN）

神经网络时代

（LSTM）

Transfoermer时代

（Attention）

DeepSeek模型架构创新

——MLA多头潜在注意力机制降低成本、提高效率

RNN

HMM

隐马尔卡夫链

（HMM）

神经网络时代

（RNN）

神经网络时代

（LSTM）

Transfoermer时代

（Attention）

DeepSeek模型架构创新

——MLA多头潜在注意力机制降低成本、提高效率

相同信息

多头

使用信息

DeepSeek工程优化

DeepSeek预训练数据与策略

l数据构建：

14.8万亿Token多样化语料，数学与编程数据比例提升，支持多语言任务

l通多Token预测（MTP）：

同时预测多个未来Token，训练效率提升1.8倍，推理加速显著

l长上下文扩展：

两阶段扩展训练（4K→32K→128K），结合YaRN方法，支持128K上下文窗口

DeepSeek低精度训练与成本控制

DeepSeek训练方法创新

R1-Zero的创新——纯强化学习训练

顿悟

R1V3

DeepSeek训练方法创新

l冷启动数据构建：

引入数干条高质量人工标注数据（含Few-shot提示、

引入数干条高质量人工标注数据（含

Few-shot提示、R1-Zero优质输出），通过微调建立初始推理框架，解决纯RL初期低效问题

DeepSeek训练方法创新

推理能力蒸馏与开源生态

使用R1生成的80万条数据对Qwen/Llama系列蒸馏，Qwen-7B在AIME准确率提升至55.5%，超越同类模型2倍

低成本推理生态开源6个蒸馏模型（1.5B-70B），API定价仅为OpenAI的3%，实现推理性能与成本的极致平衡

低成本推理生态

国产算力适配华为昇腾(Ascend)、沐曦(MetaX)、天数智芯(Iluvatar)、摩尔线程(MThreads)、壁仞科技(Biren)、芯瞳半导体(Sietium)等

国产算力适配

国内云平台支持阿里云、腾讯云、腾讯云、百度智能云、天翼云（中国电信）、移动云（中国移动）、联通云（中国联通）、火山引擎（字节跳动）、京东云、青云科技、云轴科技等

国内云平台支持

DeepSeek给了我们什么启示

技术能力第一阶段第三阶段第四阶段第五阶段全部

您可能关注的文档

文档评论（0）

哈哈 + 关注: 实名认证

内容提供者

嗨，朋友，我都会用最可爱的语言和最实用的内容，帮助你更好地理解和应对职场中的各种挑战！

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Chatting+or+Acting？——DeepSeek的突破边界与“浙大先生”的未来图景.docx