网站大量收购闲置独家精品文档,联系QQ:2885784924

2025 大模型知识蒸馏指南(详细).pdf

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大模型知识蒸馏指南

最近wsdmcup到了瓶颈,租卡跑算力成本太高,而lmsys比赛的微调结果也没啥可抄的了,

所以只能回头看看top方案,研究了一下阳哥的《Distillisallyouneed》,和第二名tascj对

于训练推理的科技与狠活,有些感觉,伴随着deepseek的大火,蒸馏和强化学习又被端上了

台面,我对强化学习暂时没什么兴趣,不过蒸馏跟我最近看的内容相关,在网上搜了一圈关于

deepseek针对蒸馏的策略,好像没有过多内容介绍,于是想着总结找到的一些资料。

什么是模型蒸馏?

模型蒸馏即知识蒸馏(KnowledgeDistillation),是一种模型压缩和加速技术。在深度学习

中,大型深度神经网络虽性能优异,但因计算复杂度高、存储需求大,难以部署在资源受限设

备上。模型蒸馏通过构建师生架构,让小的学生模型学习大的教师模型的知识,使学生模型在

保持较小规模的同时,尽可能接近教师模型的性能。其核心组件包括知识(如教师模型的

logits、中间层特征等)、蒸馏算法(用于指导知识转移)和师生架构(决定知识传递方

式)。

这里可以看比较主流的一张图,出自2021年综述:《KnowledgeDistillation:ASurvey》,

对近年的Distillation做了一个详细概括,KnowledgeDistillation的流程可以理解为:

图中除了loss之后会详细说明,唯一的未知点可能在于softtargets,它是经过softmax的下

一层级结果logits(原始分数),公式为:

其中是温度系数,从公式中能很明显看出当值较大时,Softmax输出的概率分布会更加平

滑,每个类别的概率值相对更接近;值较小时,概率分布会更尖锐,高概率类别的概率值远

高于其他类别。这些softtargets会传递给学生模型,学生模型在学习过程中不仅学习真实的

hardtargets信息,还能从教师模型的softtargets中获取类别之间的关联等知识,帮助其更

好地训练和泛化。

hardtargets与softtargets的区别可以从下面的四分类图中很形象的看出:

知识蒸馏有什么意义

实现模型压缩与加速:模型蒸馏能有效压缩模型大小、降低计算复杂度,提升推理速度。

如在论文研究中,通过知识蒸馏将大模型知识转移到小模型,在CIFAR10和CIFAR100

数据集上进行实验,结果表明可实现不同深度模型的压缩,使轻量级学生模型在保持较高

准确率的同时,显著减少模型参数和计算量,满足在资源受限设备上的部署需求。

提升模型性能:帮助学生模型学习到教师模型的有用知识,提高自身性能。在视觉识别、

自然语言处理、语音识别等多个领域的研究中发现,知识蒸馏可提升模型在复杂任务中的

表现。例如在自然语言处理中,对BERT模型进行知识蒸馏得到的轻量级模型,在保持较

高准确率的同时,推理速度大幅提升,能够高效完成多种语言任务。

解决数据相关问题:在数据稀缺、存在隐私问题或数据难以获取时,模型蒸馏有独特优

势。数据无关蒸馏方法可利用教师模型生成合成数据训练学生模型,避免对大量真实数据

的依赖。在涉及敏感数据的场景中,多教师蒸馏可让多个教师模型分别处理不同子集数

据,监督学生模型训练,既能保护数据隐私,又能完成模型训练。

促进跨领域与跨模态学习:跨模态蒸馏可实现不同模态间的知识转移,帮助模型更好地处

理多模态数据。在一些研究中,将RGB图像模态的知识转移到深度图像模态,使模型在

不同模态下都能取得较好的性能,拓宽了模型的应用范围。

助力终身学习与持续优化:与终身学习结合,模型蒸馏可帮助模型在新任务学习中保留旧

知识,避免灾难性遗忘。在不断出现新数据和新任务的场景下,通过知识蒸馏将已有知识

传递给新模型,使模型能够持续学习和优化,提升其适应性和泛化能力。

如何做知识蒸馏

做知识蒸馏的方式有非常多,从训练方案流程来看,就有离线蒸馏、在线蒸馏和自蒸馏等,从

算法更新角度上,还有对抗蒸馏、多教师蒸馏等,这里我就不用豆包在灌水了,想查一大片说

明,直接以bert时代的蒸馏开始看。

tinybert

TinyBERT是一种轻量级的预训练语言模型,由华为和华中科技大学提出。它通过知识蒸馏技

术,将BERT模型的知识迁移到一个更小的模型中,从而实现了模型体积的大幅减小和推理速

度的提升。在当时

您可能关注的文档

文档评论(0)

优选文档 + 关注
实名认证
内容提供者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档