大模型应用专题报告：多模态大模型催生产业应用革新.pdfVIP

下载本文档

10
0
约1.08万字
约 15页
2024-05-31 发布于山东
举报
版权申诉

大模型应用专题报告：多模态大模型催生产业应用革新.pdf

1、本文档共15页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大模型应用专题报告：多模态大模型催生产业应用革新

GPT-4V迈向多模态，打通图像与文本的语义空间

多模态技术的一小步将带来产业应用落地的一大步

ChatGPT带来大模型能力的变革式提升，GPT-4V推动大模型加速跨入多模态。

ChatGPT使用了InstructGPT（GPT-3.5)架构，在GPT-3基础上基于人工反

馈训练奖励模型，再使用奖励模型训练学习模型，使得其具备准确理解人类意图

和自然语言语义挖掘能力。ChatGPT相较于GPT-3，在文本生成等方面展现出

了非常强大的能力，与人类对话的智能感大幅提升，可以完成许多相对复杂的语

言任务，包括文本生成、自动问答、多轮对话等。此外，它还能编写和调试计算

机程序。在海量数据和超大规模参数量的支撑下，大模型的涌现与思维链等能

力开始出现。GPT-4则在各项能力上有了质的突破，根据OpenAI官网，

GPT-4的最大token数达到32768个，在创作能力方面可以能够编写歌曲、

剧本并学习用户写作风格，同时在GRE、SAT等考试中也获得了更加优异的测

试成绩。而2023年9月25日发布的GPT-4V则是从语言模型迈向能力更

加全面且强大的多模态模型。GPT-4V的最大变化为能够接受图像及语音的输

入，并且在图像及语音的识别与理解方面表现出色。

internet

Firewalserverirewal

usersusers

行业报告研究院

与大语言模型对比：多模态大模型增加了输入信息模态，大幅扩展大模型的应用

范围。模态指表达或感知事物的方式，每一种信息的来源或形式都可以称为一种

模态。视觉模态是直接从现实世界获取的初级模态，数据源丰富且成本低廉，相

比语言模态更直观易于理解。此外，当前英文文本在互联网和自然科学论文索引

中的数量具有优势，这也导致多数大模型数据训练集以英文语料为主。多模态模

型旨在模拟人类大脑处理信息的方式，通过预训练+调参，大幅提升信息输入规

模和信息流密度，有效打破语言模态的限制。多模态模型能力的提升还体现在提

高信息交互效率，降低应用门槛。大语言模型需要通过输入文本prompt来激

发模型的文本回应，然而，编写精准的prompt往往需要一定的技巧和思考。纯

文本的交互方式有时会受到文本表达能力的限制，使得复杂的概念或需求难以传

达。相较之下，多模态模型的图像交互方式门槛更低，更为直观。用户可以直接

提供图像或视觉信息，从而提升信息交互的效率。

与传统机器视觉模型对比：多模态大模型泛化能力更强，对知识、逻辑理解更具

深度。传统机器视觉模型只能处理图像数据，无法处理文本信息，也不具备逻辑

推理能力。由于这些模型仅对图像数据进行表征编码，通过提取视觉特征如颜色，

纹理和形状等来识别图像，没有涉及语言模态。这是由于多数视觉模型是针对特

定任务设计的，因此在处理不同任务或数据集时，其可迁移性受到限制。而多模

态大模型通过联合训练各种感知模态如图像、文本和声音等，能够学习到更通用

和抽象的特征表示。这种预训练使得多模态模型在各种应用中都具备强大的基础

性能，因此具有更高的泛化能力，进而赋予了更强的可迁移性和更广泛的应用范

围。

多模态的扩展不一定是技术主线的重大突破，但对产业应用落地的影响可能十分

巨大。从技术视角看，回顾AI的发展历程可以大致分为四个阶段，分别为基于

规则的系统、经典机器学习技术、深度学习、使用RF或其他技术的下一阶段

深度学习。整体来看在发展进程中，越来越多的训练环节被替换为可学习模块，

可学习模块越多的模型能适应的任务越抽象，这也赋予模型逐步从单一模态向多

模态发展的能力。OpenAI科学家HyungWonChung认为损失函数逐步变成

系统中的可学习部分将会是未来的下一个范式，对抗生成网络（GAN）和人类

反馈强化学习（RLHF）都是这一范式下的成功案例，这让AI系统可以学习去

做那些正确行为难以形式化的任务。在未来发展趋势中，范式转变可能在可学习

的损失函数，带来下一阶梯式技术跨步。从产业视角看，大模型输入模态从文本

向语音和图像等模态的扩充，将进一步提升产业应用的适应性，更多语音、视觉

信息占比较高的场景将接入多模

您可能关注的文档

文档评论（0）

bamboo + 关注: 实名认证

文档贡献者

太懒，没写

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大模型应用专题报告：多模态大模型催生产业应用革新.pdfVIP