- 1、本文档共36页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DeepSeek核心技术白话解读;
全校Al公开课DeepSeek与未来AI创新
第一部分
引言
报告主题:DeepSeek核心技术白话解读;
DeepSeek的突破性定位;
报告主题:DeepSeek核心技术白话解读;
报告主题:DeepSeek核心技术白话解读;
机器学习模型:一种映射,在给定输入情况(x)下、输出一定结果的函数f(x)。
机器学习:根据反馈信号调整模型的参数,以使模型的表现符合预期
Xf(x)
输入模型输出;
2.1学习策略创新:背景知识;
报告主题:DeepSeek核心技术白话解读;
神奇之处:通过一个不需要思维链标注、不需要过程监督、依靠最简单的反馈信号、依赖很少的学习循环次数的极其简单的后训练流程,就可大幅提升模型的推理能力。
报告主题:DeepSeek核心技术白话解读;
Question:Ifa1,thenthesumoftherealsolutionsofVa-va+x=xisequaltoResponse:think
Tosolvetheequationva-va+x=x,lersstartbysquaringboth…
(Va-va+x)2=x2→a-va+x=x2.
Rearrangetoisolatetheinnersquarerootterm:
(a-x2)2=a+x一a2-2ax2+(x2)2=a+x一x?-2ax2-x+(a2-a)=0
Wait,wait.Wait.ThatsanahamomentIcanflaghere.
Letsreevaluatethisstep-by-steptoidentifyifthecorrectsumcanbe…
Westartedwiththeequation:
va-√a+x=x
First,letssquarebothsides:
a-va+x=x2一Va+x=a-x2
Next,Icouldsquarebothsidesagain,treatingtheequation:;
大幅增加后训练阶段的可扩展性,降低数据标注成本
开启LLM推理能力的自我进化之门:与其直接教解题思路,
不如让模型自己悟出更好的
从强人工智能到超人工智能?;
深度神经网络的核心思想是信息的逐层传播与变换
传播的多样性:CNN关注空间局部性,RNN强调时序依赖,Transformer实现全局交互,但均
遵循“输入→处理→输出”的传播逻辑。
变换的核心性:无论线性变换、非线性激活,还是注意力权重的动态计算,本质上都是对信息的
加工和提取。
目标的一致性:最终目标是通过层级变换,将原始输入映射到有意义的输出。;
前向计算网络:
实现多层非线性变换,大约2/3的模型??数集中于此
自注意力机制:
其核心思想是通过动态计算输入元素间的权重,捕捉元素之间的复杂依赖关系,赋予模型强大的上下文建模能力。参数量占约1/3,但其计算复杂度为输入序列长度的平方,在长文本条件下消耗了大部分计算存储资源;
大模型的过参数化:参数量远超过了拟合训练数据所需的最小参数量,但学习到的
模型可能只存在于一个低本质维度的子空间中。这是Deepseek模型结构创新的重要前提
报告主题:DeepSeek核心技术白话解读;
Feed-ForwardNetwork
RMSNorm
Attention
RMSNorm;
预填充与解码阶段分离,结合冗余专家动态路由,实现高吞吐量与低延迟的在线服务。
报告主题:DeepSeek核心技术白话解读;
反向传播;
inputWeight
Scaing
FachorScaing
Factor
Nc
1Na
Ne
TonsorCore
Output
CUDACore;
更少的模型参数
混合专家结构(MOE)
更少的计算存储
FP8混合精度训练
更少的通讯开
您可能关注的文档
- 创新药出海的进阶之道.pptx
- 洞悉人货场,数驱高增长——位置大数据产品零售行业应用与实践案例-腾讯云.pptx
- 海外仓需求激增背后驱动因素与机遇.pptx
- 华为人力资源三支柱体系解读华为HR三支柱.pptx
- 全国高速公路服务区出行热度对比分析报告(2023~2024年1~6月).pptx
- 《拼装家具真有趣》(教案)-五年级劳动北师大版.docx
- 第12课《 醉翁亭记》教学设计2024-2025学年统编版语文九年级上册.docx
- 房屋租赁合同范例附家具.docx
- 河北省秦皇岛市抚宁县驻操营学区初中信息技术第一册 第八课 声音教学实录 新人教版.docx
- 二零二五版电商员工聘用合同范例.docx
- 第一单元第一课 信息与信息技术 教学设计 2024—2025学年教科版初中信息技术七年级上册.docx
- 学会沟通交流 第二课时(教学设计)全国通用五年级上册综合实践活动.docx
- Unit 1 My Classroom Part A Let’s talk(教学设计)-2024-2025学年人教PEP版英语四年级上册.docx
- 2.2 大气受热过程和大气运动教学设计 2023-2024学年高中地理人教版(2019)必修一.docx
- 端午节文华与国学教育PPT模板.pptx
- 云南省师范大学五华区实验中学九年级化学上册 5.3 利用化学方程式的简单计算教学实录 新人教版.docx
- 二零二五租房退房协议书范例.docx
- 1.4 分式的加法和减法 教学设计 2023—2024学年湘教版数学八年级上册.docx
- 1.5 税率问题(教学设计)-六年级下册数学(西师大版).docx
- 第16课《诫子书》教学设计 2024—2025学年统编版语文七年级上册.docx
文档评论(0)