- 1、本文档共42页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
多模态大语言模型领
域进展分享;
背景介绍
多模态大语言模型介绍 多模态大语言模型演进 团队相关工作介绍
未来展望;
01
背景介绍;
背景-LLM正走向多模态
?大语言模型(LLM)是近几年来最火热的方向之一
?可以解决各种传统NLP任务,如文本分类、命名实体识别等
?可以做更高级的任务
?作为聊天机器人,按照要求扮演某个角色(强大的指令遵循能力)
?做高阶的推理任务,如写代码、解数学问题等(强大的推理能力,CoT进一步增强)
?然而LLM存在固有的限制
?无法处理多模态的输入,导致有些任务无法做或者很难做,如根据网站截图给出源代码、理解一张表情包的含义
?无法获取更多的多模态的世界知识,如名画、名人等;
背景-LLM正走向多模态
?多模态大语言模型(MLLM)的兴起
?就在近两年,工业和学术界都在积极转向多模态模型,比如OpenAI的GPT-4V、GPT-4o谷歌的Gemini-Pro;
背景-MLLM能做些什么
?能做传统视觉/多模态任务;
背景-MLLM能做些什么
?能做更复杂的复合型任务,比如基于视觉的感知和理解任务;;
02
多模态大语言模型介绍;
介绍-MLLM的基本方面
?由于大企业的模型是闭源的,学术界正积极研究探索开源的模型。;
介绍-MLLM的架构
?常用的架构一般包含三个部分:;
介绍-MLLM的架构
?视觉编码器
?常用的是基于CLIP预训练的ViT
?对于常见的224x224分辨率图片,patch大小为14,最后共得到14x14=256个tokens;
介绍-MLLM的架构
?连接器
?MLP结构
?不改变视觉token的数量,使用线性层或者多层感知机做投影。
?Q-Former
?压缩图片token至固定的数量,提高运算效率
?Q指query,使用一组可学习的query向量从视觉token中抽取更紧凑的表征信息;
?第一阶段:模态对齐训练
?将视觉的语义空间与文本空间对齐
?一种做法是冻结LLM,训练视觉编码器和连接器
?通常使用大量的图文配对数据训练,如caption数据。输入图片,预测图片;
?第二阶段:指令微调训练
?提升模型的指令遵循能力,学习泛化到各种任务
?通常使用各种任务的数据,如VQA数据、检测数据等,并改造为指令格式(多轮??话形式)
?输入图片和指令,预测回答;
介绍-MLLM的评测
?常规任务Benchmark
?一般聚焦某个具体的特定任务,关注特定指标
?VQA任务:要求模型基于图片内容进行回答,常关注浅层元素如物体类别、属性,有时涉及浅层推理,回答一般比较简单。
?一般使用准确率作为评估指标;
介绍-MLLM的评测
?专门Benchmark
?除了基本的感知能力,还关注推理等能力,任务一般更为复杂、困难;
03
多模态大语言模型演进;
演进-更高的分辨率
?更高的分辨率能看见更多的信息,更准确地回答问题;
演进-更高的分辨率
?如何提高视觉编码器的分辨率?
?思路一:使用更大的分辨率进行微调(Qwen-VL:224-448,arXiv:2308.12966);
演进-更高的分辨率
?如何提高视觉编码器的分辨率?
?思路二:将大分辨率的图片切成多块,每块依然是原来的分辨率
?一般保留一张低分辨率的完整图片作为全局特征;
演进-更丰富的输入形式
?从只支持单图输入到支持多图、视频输入;
演进-更丰富的输入形式
?从只支持单图输入到支持多图、视频输入;
演进-更丰富的I/O模态支持
?输出更多的模态?如图片、音频、视频…
?输出图文交错的内容,给文字配上图,使内容更生动;
演进-更丰富的I/O模态支持
?输出更多的模态?如图片、音频、视频…
?基于基础的MLLM框架,后接各种生成模型如扩散模型,生成除文本外其他模态的信息。;
?输出更多的模态?
?统一的多模态模型—扩充语言模型的词表,将连续信号离散化
?加入Tokenizer,训练时将图片转化为离散token进行预测
?推理时统一预测多模态token,图片token经过De-tokenizer转化为图片输出
?天然支持图文交错的训练数据;
04
团队相关工作介绍;
相关工作-幻觉缓解
?背景:在开源模型探索的早期,幻觉问题还比较严重
?幻觉:大模型在描述对象属性、对象数量等方面不准确的现象。样例如下图所示。
?减少模型输出的幻觉,提升准确性和用户体验:Woodpecker;
相关工作-幻觉缓解
?能否集成专家模型缓解幻觉?
?利用外部反馈获取更准确的认知,从而增强模型,减少幻觉
?
您可能关注的文档
- 2024-2025中国企业在欧盟发展报告—直面挑战,砥砺前行110.pdf
- 2024-2025中国企业在欧盟发展报告—直面挑战,砥砺前行.pptx
- ESG深度报告:国信ESG投研体系2025-国信证券.pptx
- 2024网民网络安全感满意度调查—商用密码专题调查报告-密码科技国家工程研究中心.pdf
- 2024网民网络安全感满意度调查—商用密码专题调查报告.pptx
- 中美AIGC产业商业化落地生态与发展趋势分析报告.pptx
- 实体店代销协议书(官方版)通用版8篇.docx
- 药品购销合同注意事项6篇.docx
- 2025届广东省佛山一中高考生物押题试卷含解析.doc
- 江苏省连云港市锦屏高级中学2025届高考生物倒计时模拟卷含解析.doc
文档评论(0)