网站大量收购闲置独家精品文档,联系QQ:2885784924

多模态大语言模型领域进展分享2024.pptx

多模态大语言模型领域进展分享2024.pptx

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

多模态大语言模型领

域进展分享;

背景介绍

多模态大语言模型介绍 多模态大语言模型演进 团队相关工作介绍

未来展望;

01

背景介绍;

背景-LLM正走向多模态

?大语言模型(LLM)是近几年来最火热的方向之一

?可以解决各种传统NLP任务,如文本分类、命名实体识别等

?可以做更高级的任务

?作为聊天机器人,按照要求扮演某个角色(强大的指令遵循能力)

?做高阶的推理任务,如写代码、解数学问题等(强大的推理能力,CoT进一步增强)

?然而LLM存在固有的限制

?无法处理多模态的输入,导致有些任务无法做或者很难做,如根据网站截图给出源代码、理解一张表情包的含义

?无法获取更多的多模态的世界知识,如名画、名人等;

背景-LLM正走向多模态

?多模态大语言模型(MLLM)的兴起

?就在近两年,工业和学术界都在积极转向多模态模型,比如OpenAI的GPT-4V、GPT-4o谷歌的Gemini-Pro;

背景-MLLM能做些什么

?能做传统视觉/多模态任务;

背景-MLLM能做些什么

?能做更复杂的复合型任务,比如基于视觉的感知和理解任务;;

02

多模态大语言模型介绍;

介绍-MLLM的基本方面

?由于大企业的模型是闭源的,学术界正积极研究探索开源的模型。;

介绍-MLLM的架构

?常用的架构一般包含三个部分:;

介绍-MLLM的架构

?视觉编码器

?常用的是基于CLIP预训练的ViT

?对于常见的224x224分辨率图片,patch大小为14,最后共得到14x14=256个tokens;

介绍-MLLM的架构

?连接器

?MLP结构

?不改变视觉token的数量,使用线性层或者多层感知机做投影。

?Q-Former

?压缩图片token至固定的数量,提高运算效率

?Q指query,使用一组可学习的query向量从视觉token中抽取更紧凑的表征信息;

?第一阶段:模态对齐训练

?将视觉的语义空间与文本空间对齐

?一种做法是冻结LLM,训练视觉编码器和连接器

?通常使用大量的图文配对数据训练,如caption数据。输入图片,预测图片;

?第二阶段:指令微调训练

?提升模型的指令遵循能力,学习泛化到各种任务

?通常使用各种任务的数据,如VQA数据、检测数据等,并改造为指令格式(多轮??话形式)

?输入图片和指令,预测回答;

介绍-MLLM的评测

?常规任务Benchmark

?一般聚焦某个具体的特定任务,关注特定指标

?VQA任务:要求模型基于图片内容进行回答,常关注浅层元素如物体类别、属性,有时涉及浅层推理,回答一般比较简单。

?一般使用准确率作为评估指标;

介绍-MLLM的评测

?专门Benchmark

?除了基本的感知能力,还关注推理等能力,任务一般更为复杂、困难;

03

多模态大语言模型演进;

演进-更高的分辨率

?更高的分辨率能看见更多的信息,更准确地回答问题;

演进-更高的分辨率

?如何提高视觉编码器的分辨率?

?思路一:使用更大的分辨率进行微调(Qwen-VL:224-448,arXiv:2308.12966);

演进-更高的分辨率

?如何提高视觉编码器的分辨率?

?思路二:将大分辨率的图片切成多块,每块依然是原来的分辨率

?一般保留一张低分辨率的完整图片作为全局特征;

演进-更丰富的输入形式

?从只支持单图输入到支持多图、视频输入;

演进-更丰富的输入形式

?从只支持单图输入到支持多图、视频输入;

演进-更丰富的I/O模态支持

?输出更多的模态?如图片、音频、视频…

?输出图文交错的内容,给文字配上图,使内容更生动;

演进-更丰富的I/O模态支持

?输出更多的模态?如图片、音频、视频…

?基于基础的MLLM框架,后接各种生成模型如扩散模型,生成除文本外其他模态的信息。;

?输出更多的模态?

?统一的多模态模型—扩充语言模型的词表,将连续信号离散化

?加入Tokenizer,训练时将图片转化为离散token进行预测

?推理时统一预测多模态token,图片token经过De-tokenizer转化为图片输出

?天然支持图文交错的训练数据;

04

团队相关工作介绍;

相关工作-幻觉缓解

?背景:在开源模型探索的早期,幻觉问题还比较严重

?幻觉:大模型在描述对象属性、对象数量等方面不准确的现象。样例如下图所示。

?减少模型输出的幻觉,提升准确性和用户体验:Woodpecker;

相关工作-幻觉缓解

?能否集成专家模型缓解幻觉?

?利用外部反馈获取更准确的认知,从而增强模型,减少幻觉

?

文档评论(0)

沧海一粟2020 + 关注
实名认证
内容提供者

文不能提笔控萝莉,武不能骑马战人妻,入佛门则六根不净,入商道则狼性不足,想想还是做文字民工!

1亿VIP精品文档

相关文档