网站大量收购独家精品文档,联系QQ:2885784924

2025年DeepSeek:智能时代的全面到来和人机协作的新常态报告.docx

2025年DeepSeek:智能时代的全面到来和人机协作的新常态报告.docx

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

DeepSeek

智能时代的全面到来和人机协作的新常态

孙凌云教授

计算机科学与技术学院

2025年2月

一、智能演变

二、人机协作

三、产业现状

四、教育成长

GPT训练数据规模史无前例

GPT训练数据规模史无前例

从2018年的GPT-1到2020年的GPT-3,

模型预训练数据量从4.6GB增加到了45TB

45TB相当于三千万本《西游记》

主要模型数据集包括:

-维基百科数据集(庞大的客观知识)

-书籍(故事讲述能力与反应)

-杂志期刊(语言生成的严谨)

-Github代码等其他数据(逻辑推理)

维基百科

书籍

杂志期刊

Reddit链接

CommonCrawl

其他数据

总计

GPT-1

4.6

4.6

GPT-2

40

40

GPT-3

11.4

21

101

50

570

753

ThePilev1

6

118

244

63

227

167

825

Megatron-11B

11.4

4.6

38

107

161

MT-NLG

6.4

118

77

63

983

127

1374

Gopher

12.5

2100

164.4

3450

4823

10550

表:主要数据集大小汇总,以GB为单位。公开的数据集以粗体表示,确定的数据以斜体表示。CommonCrawl数据集过滤之前为45T

来源:OpenAI团队,LanguageModelsareFew-ShotLearners,/abs/2005.14165,2022年7月22日3

对比维度

GPT-3

DeepSeek-V3

发布时间

2020年6月

2024年12月

训练数据量

3000亿token

14.8万亿token

参数量

175B(密集架构)

671B(MoE架构)

训练成本

$12M

$5.57M

激活参数量

175B(全激活)

37B(5.5%激活率)

主要数据类型

通用互联网文本(含代码/数学)

强化代码/数学的高质量数据

官方来源

OpenAI技术论文

HuggingFace模型卡

4由AI(DeepSeekR1)搜集并整理,经人工检查

4

大模型带来大知识

全体人类知识空间

多媒体知识空间

大模型知识空间

个体知识空间

观点来自:北京大学黄铁军教授.2023年3月31日

三体人如何学习地球知识?

三体人如何学习地球知识?

电磁波探测器拯救派

三体人如何学习地球知识?

电磁波

地球文明信息

原始数据、无目标性

探测器

探测器搜集数据集精准观察、查漏补缺

拯救派

人类反馈实现对齐动态反馈、价值博弈

三体人如何学习地球知识?

电磁波

地球文明信息

原始数据、无目标性

原始数据基建

探测器

探测器搜集数据集精准观察、查漏补缺

定向能力强化

拯救派

人类反馈实现对齐动态反馈、价值博弈

价值观校准

三体人如何学习地球知识?

电磁波探测器拯救派

预训练

Pre-training

监督微调

SupervisedFine-Tuning

(SFT)

人类反馈强化学习

Reinforcementlearninghumanfeedback(RLHF)

参考GPTAssistantTrainingPipelineAndrejKarpathy.Howtotrainyour(Chat)GPTAssistant-Anemergingrecipe,2023年5月25日

三体人如何学习地球知识?

电磁波

基础模型

DeepSeek-V3-Base

探测器+拯救派

强化学习

Reinforcementlearning/GRPO

DeepSeek-R1-Zero的训练过程

结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO算法优化模型https://huggingface.co/papers/2501.129482025年1月22日

三体人如何学习地球知识?

电磁波

基础模型

DeepSeek-V3-Base

探测器+拯救派

强化学习

Reinforcementlearning/GRPO

数学题自动判分

文档评论(0)

哈哈 + 关注
实名认证
内容提供者

嗨,朋友,我都会用最可爱的语言和最实用的内容,帮助你更好地理解和应对职场中的各种挑战!

1亿VIP精品文档

相关文档