- 1、本文档共27页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;DeepSeek是什么;DeepSeek:大语言模型的特点有哪些?;DeepSeek发展由来;DeepSeek为什么火:一个足够优秀的模型变得人人免费拥有;DeepSeek核心哪些创新大幅降低训练成本;DeepSeek核心技术架构;DeepSeek的核心版本(不同版本功能亮点)
——持续迭代的工程与创新;DeepSeek的核心技术(架构示意图)
——持续迭代的工程与创新
对Transformer框架内的注意力模块和前馈网络(FFNs)进行了优化,采用了我们提出的多头潜在注意力(MLA)和DeepSeekMoE技术。
在注意力机制方面,多头注意力(MHA)的键值(KV)缓存对大型语言模型(LLMs)的推理效率构成了重大障碍。人们已经探索了多种方法来解决这个问题,包括分组查询注意力
(GQA)和多查询注意力(MQA)。然而,这些方法在试图减少KV缓存时,往往会牺牲性能。为了实现两全其美,我们引入了MLA,这是一种具备低秩键值联合压缩功能的注意力机制。实???研究表明,MLA相较于MHA具有更优的性能,同时显著减少了推理过程中的KV缓存,从而提高了推理效率。
对于前馈网络(FFNs),我们采用了DeepSeekMoE架构,该架构采用细粒度的专家分割和共享专家隔离策略,以实现更高的专家专业化潜力。与传统的MoE架构相比,DeepSeekMoE架构具有显著优势,使我们能够以较低的成本训练出强大的模型。由于我们在训练过程中采用了专家并行策略,还设计了补充机制来控制通信开销并确保负载均衡。
参考文章:《DeepSeek-V2:AStrong,Economical,andEfficientMixture-of-ExpertsLanguageModel》;DeepSeek的核心技术--MLA减少kv缓存占用空间;DeepSeek的核心技术--DeepSeekMoE细粒度分割与共享隔离;;DeepSeek的核心技术--DualPipe调度策略+细粒度的混合精度框架;DeepSeek的核心技术--R1-zero基础模型上的强化学习;DeepSeek的核心技术--R1具有冷启动的强化学习
——R1-Zero验证纯强化学习(RL)对推理能力的提升
背景:尽管DeepSeek-R1-Zero展现出了强大的推理能力,并且能够自主发展出出人意料且强大的推理行为,但它仍面临一些问题。例如,DeepSeek-R1-Zero在可读性差以及语言混杂等方面存在困难。为了使推理过程更具可读性,并能与开源社区共享,我们探索了DeepSeek-R1方法,该方法利用带有对人类友好的冷启动数据的强化学习。;DeepSeek的应用场景;;与同行技术的比较;各大模型按总分降序排列;DeepSeek-R1性能评分;如何高效用好DeepSeek?(一)
Step1:前提需要先了解清楚大语言指令模型、推理模型工作原理与局限
指令模型:openai的gpt4o、字节豆包,用于遵循指令生成任务;需要较完善的提示词,才能激发模型的表现
推理模型:deepseekr1、gpt-o1专注于逻辑推理问题解决,自主处理多步骤、因果推断或者解决复杂决策的清晰明确表达你的需求即可
Step2:在和DS交流时,当它当成是你极其聪明超过10年工作经验的助理,需要交待清楚你的诉求是什么
我的角色/背景:(例如:我是蜜雪冰城的产品运营)
我的问题场景:(例如:希望通过12个月的周期提升客单价);明确问题背景
提供具体信息
结构化描述问题;?无效示例:告诉我一些有趣的事情。
;最后,特别兴奋国产DeepSeek大幅降低训练成本且性能出色让AI进一步融入日常生活,服务大众
一起学习,一起交流,跟随技术奔跑,共勉!
技术发展进步很快,未来ds不一定是最完美那个,但一定会在AI历史长河中留下浓墨重彩的一笔
您可能关注的文档
- 2024某大型集团数智化应用项目复盘汇报方案[26页PPT].pdf
- 20250303 浙江大学版DeepSeek智能时代的全面到来和人机协作的新常态报告.pptx
- DeepSeek入门宝典个人使用篇51CTO.pdf
- DeepSeek入门宝典个人使用篇51CTO.pptx
- 详解DeepSeek模型训练优化及数据处理的技术精髓.pdf
- 盐化行业数字化转型规划详细方案【126页PPT】.pdf
- 小学信息技术课堂中的数字素养培养实践教学研究课题报告.docx
- 初中英语情景对话角色扮演卡片在口语教学中的应用教学研究课题报告.docx
- 高中物理电磁学概念解析对学生理解力的影响分析教学研究课题报告.docx
- 高中化学课堂中化学实验设计的创新与实践教学研究课题报告.docx
文档评论(0)