- 1、本文档共41页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DeepSeek的背景知识
DeepSeek的技术特点
DeepSeek的后续影响
DeepSeek的使用方法;
PART1DeepSeek的背景知识;
什么是DeepSeek
-DeepSeek公司:杭州深度求索人工智能基础技术研究有限公司。
-DeepSeek大模型:DeepSeek公司推出的一系列大模型的统称。;
DeepSeek公司
-成立时间:2023年7月;
-创始人:梁文峰(幻方量化的联合创始人);
-所在城市:浙江省杭州市拱墅区;
-公司口号:探索未至之境;
-公司业务方向:专注于通用人工智能(AGI)技术的研发和应用;
-“杭州六小龙”之一;
-团队成员大多来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校。;
梁文峰
-出生年份:1985年;
-籍贯:广东省湛江市吴川市覃巴镇米历岭村;
-学历背景:
·2002年,考入浙江大学电子工程系电子信息工程专业;
·2007年,考上浙江大学信息与通信工程专业研究生;2010年,获得硕士学位;
-工作背景:
·2008年,开始带领团队使用机器学习等技术探索量化交易;
·2015年,创立了幻方科技(杭州幻方科技有限公司);
·2019年,其资金管理规模突破百亿元;
·2023年7月,幻方量化宣布成立大模型公司DeepSeek,进入通用人工智能(AGI)领域。;
DeepSeek大模型发布时间表
-2024年01月05日,正式发布首个大模型DeepSeekLLM;
-2024年01月25日,正式发布DeepSeek-Coder,由一系列代码语言模型组成;
-2024年02月05日,正式发布DeepSeek-Math,以DeepSeek-CoderV1.57b为基础;
-2024年03月11日,正式发布DeepSeek-VL,是一个开源的视觉-语言(VL)模型;
-2024年05月07日,正式发布第二代开源MoE模型DeepSeek-V2;
-2024年06月17日,正式发布DeepSeek-Coder-V2,支持的编程语言从86种扩展到338种;
-2024年09月06日,合并DeepSeek-Coder-V2和DeepSeek-V2-Chat两个模型,升级推出DeepSeek-V2.5;
-2024年11月20日,正式发布DeepSeek-R1-Lite预览版;
-2024年12月13日,正式发布DeepSeek-VL2,用于高级多模态理解的专家混合视觉语言模型;
-2024年12月26日,正式发布DeepSeek-V3,并同步开源模型权重;
-2025年01月20日,正式发布DeepSeek-R1、DeepSeek-R1-Zero,并同步开源模型权重。;
■DeepSeek的背景知识
掀起本次DeepSeek热潮的,主要是——
DeepSeek-V3
DeepSeek-R1
DeepSeek-R1-Zero;
PART2DeepSeek的技术特点;
DeepSeek-V3的基本情况
-DeepSeek-V3是一款高性能、低成本的开源通用语言模型。
-适用场景:高性能对话、复杂任务处理和高精度场景,例如长文档分析、多模态推理、科研计算等。
-设计目标:进一步提升开源模型的能力,缩小与闭源模型的差距,同时保持训练成本的经济性。
-参数规模:共有6710亿个参数。但每次处理一个token时只激活370亿个参数。这种设计降低了计算成本。
-训练成本:总计278.8万H800GPU小时(Meta的Llama3.1需要3080万GPU小时)。假设每小时2美元,费用约557.6万美元(约为GPT-4的二十分之一)。
-价格费用:模型API服务定价为每百万输入tokens0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens8元。在性能实现领先的同时,定价大幅低于市面上所有模型,性价比优势明显。;
DeepSeek-V3的性能表现
-在数学推理(GSM8K)、代码生成(HumanEval)、常识推理(MMLU)等基准测试中达到领先水平
您可能关注的文档
- 2025DeepSeek大模型如何在高校应用.pptx
- 2025如何使用DeepSeek赋能家庭教育.pptx
- 2025DeepSeek应用知识手册操作指南.pptx
- 2025DeepSeek大模型企业应用操作指南.pptx
- DeepSeek华为云AI解决方案设计.pptx
- DeepSeek普通人使用指南说明.docx
- 大数据安全运营中心建设方案设计.pptx
- 企业数字化转型端到端流程设计全产业链ERP解决方案.pptx
- 华为昇腾DeepSeek解决方案设计.pptx
- 大型企业信息化建设项目业务设计方案.pptx
- 2025年中国无张力自动对边验布机市场调查研究报告.docx
- 2024年9月份光谱分析技术的敕勒歌颜料鉴定 .ppt
- 热工基础模拟习题+答案.docx
- 雨课堂学堂在线《生活中的会计学(华北电力)》学堂云单元测试考核答案.pdf
- 压缩空气储能项目投资测算分析报告(参考范文).docx
- 海峡两岸大学通识教育实施的多维度比较与启示.docx
- 探寻初中语文课外阅读动机:现状洞察与策略重构.docx
- 雨课堂学堂在线《生命发育与健康(四川)》学堂云单元测试考核答案.pdf
- 三维超声心动图:解析缺血性二尖瓣反流中二尖瓣环构型及影响因素.docx
- 沈阳市篮球培训市场学龄前儿童学员家长消费心理的多维度剖析与策略研究.docx
最近下载
- 门诊特定病种定点医疗机构选定表.docx
- 《分数的意义和性质》大单元整体设计 人教版数学五年级下册.doc
- F330184【复试】2024年昆明理工大学085901土木工程《复试F006道路与桥梁工程之桥梁工.pdf VIP
- Unit 6 Time Lesson 1 It’s seven o’clock(教学设计)-2023-2024学年鲁科版(五四学制) (三起)英语三年级下册.docx
- 牛津译林版英语 八年级下册 Unit 4 A good read 单元巩固与复习 课件(共23张PPT)(含音频+视频).ppt VIP
- 普通门诊定点医疗机构选定表.docx
- 七猫中文网投稿申请表更新版.docx
- 永磁滚筒式磁选机的分析和设计.docx VIP
- GB/T 14295-2019 空气过滤器国家标准.pdf
- 版本自考公共关系学重点的笔记(课程代码:00182).doc
文档评论(0)