2024年多模态大模型（MLLMs）轻量化方法研究现状和展望报告-中移智库.docx

下载文档

0
0
约8.29千字
约 26页
2024-12-20 发布于北京
举报
版权申诉
保障服务

2024年多模态大模型（MLLMs）轻量化方法研究现状和展望报告-中移智库.docx

1、本文档共26页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

多模态大语言模型（MLLMs）轻量化方法研究现状和展望

中国移动研究院业务研究所2024年12月

2/14

摘要

多模态大语言模型（MLLMs）在视觉问答、视觉理解与推理

等任务中展现出卓越的性能，但多模态大语言模型庞大的模型规模和高昂的训练、推理成本限制了其在学术界和工业界的广泛应用。因此，研究高效且轻量化的多模态大语言模型，特别是在边缘计算场景中，潜力巨大。本文将全面介绍当前多模态大语言模型轻量化的方法及研究现状，并探讨其局限性及未来潜在的发展方向。

一、多模态大语言模型概述

（一）什么是多模态大语言模型？

多模态大语言模型是一种创新性的人工智能模型，巧妙地融合了大语言模型与多模态处理能力。它能够理解和生成涵盖多种模态的数据，如文本、图像、视频、音频等，并通过多模态信息的融合实现更广泛、更复杂的任务。多模态大语言模型不仅具有强大的语言处理能力，还能通过对图像、视频或其他模态的理解，进行跨模态任务处理，比如视觉问答、视觉推理、多模态内容生成等。

3/14

（二）为什么要轻量化？

多模态大语言模型的成功主要得益于缩放定律（scalinglaw），即资源投入越多，性能越高。然而，高资源需求限制了其开发和部署。例如，MiniGPT-v2模型[16]的训练耗时超800GPU小时，LLaVA-1.5-Vicuna-13B[3]模型推理需18.2TFLOPS和41.6G内存，资源消耗巨大。目前，主流多模态大语言模型多由少数企业掌控，云端运行模式引发普及化和隐私保护担忧，同时，高算力需求也限制了边缘设备的应用，对公平访问和隐私保护构成挑战。鉴于此，轻量化多模态大语言模型的研究日益受到重视，旨在降低资源消耗、提高适用性，同时尽量减少性能损失。

二、多模态大语言模型轻量化方法研究现状

多模态大语言模型主要由三个核心模块组成：视觉编码器、预训练大语言模型、以及视觉-语言投影器，如图1所示。轻量化多模态大语言模型的优化措施主要集中在对上述三个模块的改进，并引入了视觉token压缩技术和高效的结构设计。

4/14

图1多模态大语言模型的轻量化架构

出自论文《EfficientMultimodalLargeLanguageModels:ASurvey》

（一）三个核心模块优化

视觉编码器：负责接收和处理视觉输入。轻量化的多模态大语言模型通常选择使用预训练的视觉编码器模型（如CLIP[4]），以便更好地对齐视觉与文本输入的特征空间。由于视觉编码器在多模态大语言模型总参数中的占比较小，其轻量化优化的效果不如语言模型显著，因此大部分轻量化多模态大语言模型通常仍沿用大规模多模态大语言模型中广泛采用的视觉编码器。

预训练大语言模型：大语言模型是多模态大语言模型的核心组件，用于管理多模态信号并执行推理。多模态大语言模型中获取小的大语言模型的方案一般分为两种：一是直接使用小的轻量化模型。轻量化的多模态大语言模型通常使用参数少于30亿的小型语言模型，如微软的phi2-2.7B模型[17]和谷歌的

5/14

Gemma-2B模型[2]。Phi-2模型在特殊数据集上训练后，其性能可以匹配使用常规数据集训练的25倍大模型。Phi-3-mini模型[2]可以轻松地在现代手机上本地部署，且其质量与Mixtral8x7B[18]模型和GPT-3.5等模型相当。二是使用模型压缩技术对大语言模型进行轻量化处理。一般常用的模型压缩方法包括：量化，剪枝，知识蒸馏，紧凑的架构设计，动态网络等，这些方法在传统的深度学习网络（如CNN和RNN）中已有广泛应用，而在大语言模型的优化中也有了更深入的探索。每种方法的具体实施方案和效果因任务需求和硬件约束而异，在此不再逐一详细介绍。

视觉-语言投影器：是连接视觉与文本桥梁，其核心功能是将视觉特征块映射至文本特征空间。针对此模块的轻量化，包括四种：一是基于注意力。如BLIP2[7]引入了Q-Former，一个轻量级的Transformer，使用一组可学习的查询向量从冻结的视觉模型中提取视觉特征。二是基于CNN。如MobileVLMv2[8]提出的LDPv2，通过使用逐点卷积层、平均池化和带有跳跃连接的PEG模块，LDPv2减少了99.8%的参数，在效率上取得了更好的表现。三是基于Mamba。如VL-Mamba[9]在其视觉-语言投影器中实现了2D视觉选择性扫描（VSS）技术，促进了多种学习方法的融合。四是混合结构