网站大量收购独家精品文档,联系QQ:2885784924

DeepSeek技术溯源及前沿探索.pptx

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

浙江大学DS系列专题DeepSeek技术溯源及前沿探索1

Outline一、语言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能体2

LanguageModeling对于任意的词序列,计算出这个序列是一句话的概率我们每天都和语言模型打交道:IsawacatIsawacatonthechairIsawacatrunningafteradogIsawacatinmydreamIsawacacar语言模型:终极目标3

Sheismymom1 0 0 00 1 0 00 0 1 00 0 0 1One-hotEncoding只有一个1,其余均为0One-hotEncoding有什么缺点吗?4编码:让计算机理解人类语言语言模型:基本任务

…游泳 飞翔0.99 0.99 0.05 0.10.99 0.05 0.93 0.09…0.02 0.01 0.99 0.98…0.98 0.02 0.940.3…鲸鱼海豚鹦鹉企鹅WordEmbedding用一个低维的词向量表示一个词能使距离相近的向量对应的物体有相近的含义20维的向量用one-hot和wordembedding的方法分别可以表示多少单词?编码:让计算机理解人类语言5

WordEmbedding结合句子语境我们可以猜测:tezgüino是一种由玉米制作的酒精类饮料(1)(2)(3)(4)Abottleoftezgüinoisonthetable.Everyonelikestezgüino.Tezgüinomakesyoudrunk.Wemaketezgüinooutofcorn.Abottleof isonthetable.Everyonelikes . makesyoudrunk.Wemake outofcorn.1 1 1 11 0 0 00 1 0 11 1 1 0tezgüinomotoroiltortillaswine两行内容十分相近两个单词含义相近编码:让计算机理解人类语言6

基于统计的N-gram(1970after)语言模型:技术演化Before:P(小)·P(猫|小)·P(抓|小猫)·P(老|小猫抓)·P(鼠|小猫抓老)gram:P(小)·P(猫|小)·P(抓|猫)·P(老|抓)·P(鼠|老)gram:P(小)·P(猫|小)·P(抓|小猫)·P(老|猫抓)·P(鼠|抓老)基于神经网络的LSTM/GRU(2000after)Transformer(2017after)7

常见的深度学习模型框架,可用于解决Seq2Seq问题可以根据任务选择不同的编码器和解码器(LSTM/GRU/Transformer)EncoderDecoder我很聪明!Iamprettysmart!隐空间RepresentationEncoder-Decoder8

Outline一、语言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能体9

10Transformer:理论架构创新自注意力机制:支持并行计算/全局上下文的理解能力多头注意力:从多个角度捕捉复杂的语义关系前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性大型语言模型简史TransformerGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V32017201820182019201920202021202220222023202320242024202420251958JUNJUNOCTFEBOCTMAYSEP MARNOVFEB MARMARAPRDECJANDeepSeek-R1/cf2SudS8x8F0v/article/details/145695146OpenAI-o3

DecoderAttentionIsAllYouNeedEncoderNIPS2017,引用量15万+引入全新注意力机制,改变了深度学习模型的处理方式11Transformer:大模型的技术基座

Transformer:(自)注意力机制在理解语言任务时,Attention机制本质上是捕捉单词间的关系She is eating a green apple.中国南北饮食文化存在差异,豆花有南甜北咸之分。南方人一般喜欢吃甜豆花123Theanimaldid

文档评论(0)

暗伤 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档