- 1、本文档共21页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大模型知识蒸馏指南
最近wsdmcup到了瓶颈,租卡跑算力成本太高,而lmsys比赛的微调结果也没啥可抄的了,
所以只能回头看看top方案,研究了一下阳哥的《Distillisallyouneed》,和第二名tascj对
于训练推理的科技与狠活,有些感觉,伴随着deepseek的大火,蒸馏和强化学习又被端上了
台面,我对强化学习暂时没什么兴趣,不过蒸馏跟我最近看的内容相关,在网上搜了一圈关于
deepseek针对蒸馏的策略,好像没有过多内容介绍,于是想着总结找到的一些资料。
什么是模型蒸馏?
模型蒸馏即知识蒸馏(KnowledgeDistillation),是一种模型压缩和加速技术。在深度学习
中,大型深度神经网络虽性能优异,但因计算复杂度高、存储需求大,难以部署在资源受限设
备上。模型蒸馏通过构建师生架构,让小的学生模型学习大的教师模型的知识,使学生模型在
保持较小规模的同时,尽可能接近教师模型的性能。其核心组件包括知识(如教师模型的
logits、中间层特征等)、蒸馏算法(用于指导知识转移)和师生架构(决定知识传递方
式)。
这里可以看比较主流的一张图,出自2021年综述:《KnowledgeDistillation:ASurvey》,
对近年的Distillation做了一个详细概括,KnowledgeDistillation的流程可以理解为:
图中除了loss之后会详细说明,唯一的未知点可能在于softtargets,它是经过softmax的下
一层级结果logits(原始分数),公式为:
其中是温度系数,从公式中能很明显看出当值较大时,Softmax输出的概率分布会更加平
滑,每个类别的概率值相对更接近;值较小时,概率分布会更尖锐,高概率类别的概率值远
高于其他类别。这些softtargets会传递给学生模型,学生模型在学习过程中不仅学习真实的
hardtargets信息,还能从教师模型的softtargets中获取类别之间的关联等知识,帮助其更
好地训练和泛化。
hardtargets与softtargets的区别可以从下面的四分类图中很形象的看出:
知识蒸馏有什么意义
实现模型压缩与加速:模型蒸馏能有效压缩模型大小、降低计算复杂度,提升推理速度。
如在论文研究中,通过知识蒸馏将大模型知识转移到小模型,在CIFAR10和CIFAR100
数据集上进行实验,结果表明可实现不同深度模型的压缩,使轻量级学生模型在保持较高
准确率的同时,显著减少模型参数和计算量,满足在资源受限设备上的部署需求。
提升模型性能:帮助学生模型学习到教师模型的有用知识,提高自身性能。在视觉识别、
自然语言处理、语音识别等多个领域的研究中发现,知识蒸馏可提升模型在复杂任务中的
表现。例如在自然语言处理中,对BERT模型进行知识蒸馏得到的轻量级模型,在保持较
高准确率的同时,推理速度大幅提升,能够高效完成多种语言任务。
解决数据相关问题:在数据稀缺、存在隐私问题或数据难以获取时,模型蒸馏有独特优
势。数据无关蒸馏方法可利用教师模型生成合成数据训练学生模型,避免对大量真实数据
的依赖。在涉及敏感数据的场景中,多教师蒸馏可让多个教师模型分别处理不同子集数
据,监督学生模型训练,既能保护数据隐私,又能完成模型训练。
促进跨领域与跨模态学习:跨模态蒸馏可实现不同模态间的知识转移,帮助模型更好地处
理多模态数据。在一些研究中,将RGB图像模态的知识转移到深度图像模态,使模型在
不同模态下都能取得较好的性能,拓宽了模型的应用范围。
助力终身学习与持续优化:与终身学习结合,模型蒸馏可帮助模型在新任务学习中保留旧
知识,避免灾难性遗忘。在不断出现新数据和新任务的场景下,通过知识蒸馏将已有知识
传递给新模型,使模型能够持续学习和优化,提升其适应性和泛化能力。
如何做知识蒸馏
做知识蒸馏的方式有非常多,从训练方案流程来看,就有离线蒸馏、在线蒸馏和自蒸馏等,从
算法更新角度上,还有对抗蒸馏、多教师蒸馏等,这里我就不用豆包在灌水了,想查一大片说
明,直接以bert时代的蒸馏开始看。
tinybert
TinyBERT是一种轻量级的预训练语言模型,由华为和华中科技大学提出。它通过知识蒸馏技
术,将BERT模型的知识迁移到一个更小的模型中,从而实现了模型体积的大幅减小和推理速
度的提升。在当时
您可能关注的文档
- 2万字解读与硬核分析DeepSeek V3_R1的架构.pdf
- AnythingLLM + Ollama 实现私有知识库.pdf
- DeepSeek 普通人使用指南.pdf
- DeepSeek-R1最佳本地部署+知识库+联网有哪些信誉好的足球投注网站(2个安装包1条命令搞定).pdf
- DeepSeek本地部署+WebUI可视化+数据投喂训练AI之新手保姆级教程.pdf
- DeepSeek本地部署及局域网共享使用.pdf
- DeepSeek本地部署最具性价比电脑配置推荐(2025年).pdf
- DeepSeek的核心创新点.pdf
- DeepSeek等大模型管理神器:Cherry Studio、Chatbox、AnythingLLM,谁才是你的效率加速器?.pdf
- DeepSeek卡顿已解决,稳定使用方案大公开.pdf
- 讲稿:深入理解“五个注重”把握进一步深化改革统筹部署以钉钉子精神抓好落实.pdf
- 副市长在2025年全市医疗工作会议上的讲话.docx
- 2025年市县处级以上党委(党组)理论学习中心组专题学习计划.docx
- 市民族宗教事务局党组书记、局长2024年度民主生活会个人对照检视发言材料.docx
- 烟草局党组书记2024年度抓基层党建工作述职报告.docx
- (汇编)学习2025年全国教育工作会议精神心得体会发言心得感悟.pdf
- 汇编学习领会在二十届中纪委四次全会上的重要讲话精神心得体会.pdf
- 在2025年镇安全生产、消防安全和生态环境保护第一次全体会议上的讲话提纲.docx
- 书记干部座谈会上的讲话+纪委全会上的讲话.pdf
- 党课:从毛泽东诗词中感悟共产党人初心使命.docx
最近下载
- 在创新中传承在传承中创新2025春季开学典礼校长发言四篇.docx VIP
- 高考英语阅读理解100篇.doc VIP
- 2025年二建机电实务押题班模拟试卷 .pdf VIP
- 《汽车制动排放测试方法(制动测功机法)第2部分:测试系统》标准征求意见稿.docx
- 自然拼读 phonics kids book3双字母组合发音.pdf
- 高考英语阅读理解100篇.pdf VIP
- 2025年公务员考试申论试题与参考答案.docx VIP
- 2025年江苏省初中学生化学素质与实验能力竞赛预赛试题(含答案).pdf VIP
- 中国漆包线行业市场发展现状及前景趋势与投资分析研究报告.docx
- 2024年安康职业技术学院单招职业倾向性测试题库(500题)含答案解析.docx VIP
文档评论(0)