- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
联系人:张良卫/周良玖
1、DeepSeek重要事件及节点梳理
1月20日,DeepSeek正式发布DeepSeek-R1模型,并同步开源模型权重。这是继此前发布
DeepSeek-V3大模型以来的必威体育精装版重要模型发布,得到国内外大模型产业及媒体的广泛关
注。R1模型核心特点及重要事实:
1、DeepSeek-R1的最大亮点在于其训练方法,首次完全通过强化学习(RL)训练大型语言
模型,无需依赖监督微调(SFT)或人工标注数据,这一突破验证了仅通过奖励信号,模型
也能发展出强大的推理能力。这一方式被认为是R1模型的主要创新之一。
2、主流模型评测集得分:AIME2024:79.8%(OpenAIo1:79.2%),MATH-500:97.3%
(OpenAIo1:96.4%),Codeforces评分:2029(OpenAIo1:2061),MMLU:90.8%
(OpenAIo1:91.8%)。
3、广为讨论的DeepSeekV3约600万美元左右成本仅指预训练过程中GPU的花费,只是
模型总成本的一部分,普遍认为并不包括与前期研究和架构、算法和实验相关的成本。但
R1的API定价的确显著低于O1:DeepSeek-R1采用MIT许可协议(使用、复制、修改、分
发),完全开源,并提供了六个蒸馏版本(1.5B至70B),适合不同规模的开发者使用。
这背后可能也有不同规模、不同阶段的定价策略的原因。
API定价:每百万输入tokens:1元(缓存命中)/4元(缓存未命中)。输出tokens:16
元。与OpenAIo1相比,API调用成本显著降低。
需要关注的是,实际上DeepSeek历来的标签就是工程创新带来的成本下降,包括前期
DeepSeekV2的MOE架构,以及V3在例如通信重叠、FP8混合精度框架、MLA等领域的
创新。但在V2及V3阶段,市场并没有给予广泛关注。我们认为这一阶段对于R1的广泛
关注,更主要的原因是在于产业进展到了这个阶段。
4、一个很重要的事实:DeepSeek自1月27日以来登顶美国、中国的APP榜单,截止必威体育精装版
数据,DeepSeek登顶并持续保持美国、中国应用总榜和效率榜。
5、这也引发了对于开源的讨论:虽然DeepSeek已经发布了其R1模型背后的“权重”,即数
值参数,供公众免费使用、下载和修改,但它没有发布该模型背后的训练数据。Hugging
Face其社区已经基于DeepSeek的R1模型创建了617个模型,下载量超过300万次。但开
源模型接近甚至超过闭源模型是贯穿2024年全年的发展趋势,DeepSeek也认为,开源是
促进模型创新的重要原因之一。
2、假期一些主要人工智能相关企业的评价
假期,美国科技巨头的股价出现了较大的波动,在1/24-1/31日期间:
英伟达:-18.44%
苹果:+5.52%
Meta:+8.29%
亚马逊:0.96%
Google:+3.05%
Applovin:1.95%
微软:-7.09%
来自meta的业绩交流会
MarkZuckerberg:
鉴于最近的一些新闻,比如来自中国的新竞争对手DeepSeek,我们认为全球将会出现
开源标准。从美国自身利益出发,让美国标准成为全球开源标准非常重要。
我们很重视这一点,希望打造出全球用户都在使用的人工智能系统。近期的这些动态
更加坚定了我们的信念,让我们确信这是正确的发展方向。
他们做了很多创新,我们仍在研究。其中一些技术进步,我们希望能应用到自己的系统
中。这就是行业发展的规律,无论竞争对手来自哪个国家。每一家新公司的技术突破和产
品发布,都会带来新的理念,整个行业都会从中学习。这就是科技行业的发展模式。
现在就断言这对基础设施投资、资本支出等方面有什么确切影响,还为时尚早。当前有很
多趋势同时在发生。
关于计算基础设施的使用,一直存在争议:有多少计算资源将用于预训练,又有多少用于
推理。随着推理阶段的计算投入增加,智能水平和服务质量得以提升,推理模型越来越受
重视。在DeepSeek出现之前,很多研究机构,包括我们自己,就已经在思考这个问题,并
且认为计算资源的最大投入方向很可能不再是预训练。但这并不意味着我们需要的计算资
源会减少。因为新的趋势是,在推理阶段投入更多计算资源,可以提升智能水平和服务质
量。这意味着,作为一家拥有强大商业模式的公司,我们有优势为用户提供更高质量的服
务,而那些商业模式不够强大的公司可能难以持
您可能关注的文档
最近下载
- 湖南美术出版社四年级下册书法教案2套(完整版).pdf
- 高考英语写作之句型转换练习(含答案)-2025届高三英语二轮复习.docx VIP
- 定制家具营销方案.docx VIP
- 《柴油机电控系统硬件在环仿真平台开发技术规范》标准文本附编制说明.pdf
- 2025人教版新教材三年级下册英语全册精品教案.docx
- 中国农村给水工程规划C设计手册(目录).doc
- (GBT31710-2015休闲露营地建设与服务规范.docx VIP
- 2025年八省联考地理试卷分析及复习备考策略指导(深度课件).pdf
- 产褥期卫生指导与保健PPT课件.pptx VIP
- 2024年吉林省高考英语试卷(含答案解析)+听力音频.docx
文档评论(0)