网站大量收购闲置独家精品文档,联系QQ:2885784924

中国宏观经济月报:DeepSeek的抄袭争议——蒸馏技术的使用.docxVIP

中国宏观经济月报:DeepSeek的抄袭争议——蒸馏技术的使用.docx

此“经济”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1

2025/02/11

2025/02/11

中国宏观经济研究员杨曦

010xi_yang@.hk

DeepSeek的抄袭争议——蒸馏技术的使用

随着DeepSeekR1和V3的迅速走红,模型蒸馏这一原本较为冷门的技术术语也随之进入公众视野。外界对DeepSeek的主要质疑之一,是其模型可能通过从其他先进模型中提取知识而构建,这也引发了OpenAI对其“抄袭”的指控。

在达沃斯论坛上,DeepMind的首席执行官DemisHassabis表示,DeepSeek的模型确实表现出了一些“令人惊讶”的特性,但他也坦言,“对DeepSeek模型的具体工作原理并不完全了解,尤其是它在多大程度上依赖于其他美国公司模型的成果”。1月29日,彭博社援引知情人士的消息称,微软的安全研究人员在2023年秋季发现DeepSeek的员工通过OpenAI的API获取了大量数据,暗示这些数据可能被用于训练V3或R1模型,然而,OpenAI并未提供确凿的证据。

蒸馏技术并非抄袭

在机器学习领域,蒸馏技术是一种常见的优化方法,其核心思想是将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)中。这一过程旨在保留大模型的核心性能,同时显著减少模型的大小和计算需求,使其更适合在资源有限的环境中部署。

通俗地说,这就像一位经验丰富的教授向一位新生传授专业知识。教授代表教师模型,而新生作为学生模型,通过吸收这些知识来完成学习过程。正如学生在学习过程中吸收了前人的智慧并不等同于直接抄袭前人的作品一样,模型蒸馏也并非简单的复制。

蒸馏技术的概念最早由被誉为“AI教父”的GeoffreyHinton在2015年的一篇论文中提出。他在文中明确指出,蒸馏(Distillation)并非复制大模型的架构或代码,而是提取大模型中所包含的知识(knowledge)。因此,蒸馏的本质是知识迁移,而非整体架构的抄袭。

2

DeepSeek-V3

DeepSeek-V3对蒸馏技术的应用

V3和R1模型的技术论文详细展示了DeepSeek在蒸馏技术上的具体实践。简而言之,DeepSeek

通过优化训练数据,帮助小型模型更高效地学习。在V3模型的开发过程中,DeepSeek利用其强大的教师模型——DeepSeek-R1系列的推理能力,生成了80万条训练样本,用于后续的模型训练。

DeepSeek在论文中指出:“我们从DeepSeek-R1系列模型中提取了推理思维链(CoT),并将其整合到标准的大语言模型(LLMs)中,尤其是DeepSeek-V3。我们的流水线将R1的验证和反思模式无缝集成到V3中,显著提升了其推理性能。”

除了使用从R1系列模型中提取的80万条思维链样本训练V3外,DeepSeek还利用这些样本对较小的基础模型(如Qwen和Llama系列)进行了微调。这一过程无需额外的强化学习(RL)阶段,从而大幅提高了蒸馏效率。在技术论文中,DeepSeek表示,经过这种后训练的Qwen系列模型“表现显著优于之前的版本,并与o1-mini相当”。DeepSeek进一步指出:“我们证明了大型模型的推理模式可以被提取并应用于小型模型中”,这为大模型的后训练优化开辟了一条新的路径。

在基于开源模型进行蒸馏的基础上,DeepSeek能够以较低的成本实现卓越的性能,这并非所有公司都能轻易复制的。DeepSeek的成功更多依赖于其高效的算力调度和模型优化能力,而不仅仅是蒸馏技术本身。

蒸馏技术的优势与挑战

蒸馏技术的应用本身并无不妥,尤其对于资源有限的小型企业而言,它能够显著降低数据构建成本,并快速实现成果。此外,大模型在实际应用中的场景往往较为有限,而蒸馏技术能够将复杂庞大的模型转化为更小巧、高效的版本,从而扩展其应用范围,使更多研究实验室和小型组织能够参与到人工智能的创新中。

DeepSeek的成功也表明,通过蒸馏技术控制成本的小型科技企业同样可以在AI应用和用户体验方面展现出强大的创新能力,尤其是在产品快速迭代和市场化方面具有显著优势,特别是在C端市场的表现上。

全球许多AI初创公司也在采用多种大模型的蒸馏融合技术,形成了所谓的“多专家模型”(MoE)。这种蒸馏模型在某些情况下甚至可能超越原始模型的性能,因为它具备更强的泛化能力,能够整合更丰富的信息,从而提升最终表现。

然而,学生模型的性能往往难以突破原始模型的固有能力上限,这就像存在一个“隐性天花板”,限制了模型在新领域或复杂任务中

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档