- 1、本文档共71页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DeepSeek
智能时代的全面到来和人机协作的新常态
孙凌云教授
计算机科学与技术学院
2025年2月
一、智能演变
二、人机协作
三、产业现状
四、教育成长
GPT训练数据规模史无前例
GPT训练数据规模史无前例
从2018年的GPT-1到2020年的GPT-3,
模型预训练数据量从4.6GB增加到了45TB
45TB相当于三千万本《西游记》
主要模型数据集包括:
-维基百科数据集(庞大的客观知识)
-书籍(故事讲述能力与反应)
-杂志期刊(语言生成的严谨)
-Github代码等其他数据(逻辑推理)
维基百科
书籍
杂志期刊
Reddit链接
CommonCrawl
其他数据
总计
GPT-1
4.6
4.6
GPT-2
40
40
GPT-3
11.4
21
101
50
570
753
ThePilev1
6
118
244
63
227
167
825
Megatron-11B
11.4
4.6
38
107
161
MT-NLG
6.4
118
77
63
983
127
1374
Gopher
12.5
2100
164.4
3450
4823
10550
表:主要数据集大小汇总,以GB为单位。公开的数据集以粗体表示,确定的数据以斜体表示。CommonCrawl数据集过滤之前为45T
来源:OpenAI团队,LanguageModelsareFew-ShotLearners,/abs/2005.14165,2022年7月22日3
对比维度
GPT-3
DeepSeek-V3
发布时间
2020年6月
2024年12月
训练数据量
3000亿token
14.8万亿token
参数量
175B(密集架构)
671B(MoE架构)
训练成本
$12M
$5.57M
激活参数量
175B(全激活)
37B(5.5%激活率)
主要数据类型
通用互联网文本(含代码/数学)
强化代码/数学的高质量数据
官方来源
OpenAI技术论文
HuggingFace模型卡
4由AI(DeepSeekR1)搜集并整理,经人工检查
4
大模型带来大知识
全体人类知识空间
多媒体知识空间
大模型知识空间
个体知识空间
观点来自:北京大学黄铁军教授.2023年3月31日
三体人如何学习地球知识?
三体人如何学习地球知识?
电磁波探测器拯救派
三体人如何学习地球知识?
电磁波
地球文明信息
原始数据、无目标性
探测器
探测器搜集数据集精准观察、查漏补缺
拯救派
人类反馈实现对齐动态反馈、价值博弈
三体人如何学习地球知识?
电磁波
地球文明信息
原始数据、无目标性
原始数据基建
探测器
探测器搜集数据集精准观察、查漏补缺
定向能力强化
拯救派
人类反馈实现对齐动态反馈、价值博弈
价值观校准
三体人如何学习地球知识?
电磁波探测器拯救派
预训练
Pre-training
监督微调
SupervisedFine-Tuning
(SFT)
人类反馈强化学习
Reinforcementlearninghumanfeedback(RLHF)
参考GPTAssistantTrainingPipelineAndrejKarpathy.Howtotrainyour(Chat)GPTAssistant-Anemergingrecipe,2023年5月25日
三体人如何学习地球知识?
电磁波
基础模型
DeepSeek-V3-Base
探测器+拯救派
强化学习
Reinforcementlearning/GRPO
DeepSeek-R1-Zero的训练过程
结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO算法优化模型https://huggingface.co/papers/2501.129482025年1月22日
三体人如何学习地球知识?
电磁波
基础模型
DeepSeek-V3-Base
探测器+拯救派
强化学习
Reinforcementlearning/GRPO
数学题自动判分
您可能关注的文档
- 2024年中国西部城区经济高质量发展研究报告-赛迪.docx
- 2024年终端安全洞察报告-火绒安全.docx
- 2025-B站世界音乐文化集招商通案.docx
- 2025春夏女装连衣裙白皮书.docx
- 2025年DeepSeek:智能时代的全面到来和人机协作的新常态报告.docx
- 2025年DeepSeek模型优势:算力、成本角度解读报告-浙江大学(王则可).docx
- 2025年DeepSeek完全实用手册V1.0-从技术原理到使用技巧-至顶AI实验室.docx
- 2025年操作系统停服应用指南报告-阿里云.docx
- 2025年抖音电商食品饮料营销趋势报告-有米有数.docx
- 2025年人人懂AI之从机器学习到大模型报告-阿里云.docx
最近下载
- 2025年江西省宜春市单招职业适应性考试题库及答案1套.docx VIP
- 机修人员管理制度.docx
- 内蒙古 12S10 管道支架、吊架 DBJ03-22-2014.docx
- 【课件】用坐标表示地理位置+课件人教版(2024)数学七年级下册.pptx VIP
- 建筑给排水毕业设计.doc VIP
- GB14880-2023食品安全国家标准 食品营养强化剂使用标准与2012版标准文本比对.pdf
- 四年级必读《灰尘的旅行》阅读测试题附答案.docx VIP
- 全国建筑设计劳动工日定额.doc
- 设计规范-导视系统-万达-【精】WD广场商业综合体导向标识系统规划设计规范.pdf
- 《鸡兔同笼》说课课件(说课比赛一等奖).pptx
文档评论(0)