大模型应用专题报告:多模态大模型催生产业应用革新.pdfVIP

大模型应用专题报告:多模态大模型催生产业应用革新.pdf

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大模型应用专题报告:多模态大模型催生产业应用革新

GPT-4V迈向多模态,打通图像与文本的语义空间

多模态技术的一小步将带来产业应用落地的一大步

ChatGPT带来大模型能力的变革式提升,GPT-4V推动大模型加速跨入多模态。

ChatGPT使用了InstructGPT(GPT-3.5)架构,在GPT-3基础上基于人工反

馈训练奖励模型,再使用奖励模型训练学习模型,使得其具备准确理解人类意图

和自然语言语义挖掘能力。ChatGPT相较于GPT-3,在文本生成等方面展现出

了非常强大的能力,与人类对话的智能感大幅提升,可以完成许多相对复杂的语

言任务,包括文本生成、自动问答、多轮对话等。此外,它还能编写和调试计算

机程序。在海量数据和超大规模参数量的支撑下,大模型的涌现与思维链等能

力开始出现。GPT-4则在各项能力上有了质的突破,根据OpenAI官网,

GPT-4的最大token数达到32768个,在创作能力方面可以能够编写歌曲、

剧本并学习用户写作风格,同时在GRE、SAT等考试中也获得了更加优异的测

试成绩。而2023年9月25日发布的GPT-4V则是从语言模型迈向能力更

加全面且强大的多模态模型。GPT-4V的最大变化为能够接受图像及语音的输

入,并且在图像及语音的识别与理解方面表现出色。

internet

Firewalserverirewal

usersusers

行业报告研究院

与大语言模型对比:多模态大模型增加了输入信息模态,大幅扩展大模型的应用

范围。模态指表达或感知事物的方式,每一种信息的来源或形式都可以称为一种

模态。视觉模态是直接从现实世界获取的初级模态,数据源丰富且成本低廉,相

比语言模态更直观易于理解。此外,当前英文文本在互联网和自然科学论文索引

中的数量具有优势,这也导致多数大模型数据训练集以英文语料为主。多模态模

型旨在模拟人类大脑处理信息的方式,通过预训练+调参,大幅提升信息输入规

模和信息流密度,有效打破语言模态的限制。多模态模型能力的提升还体现在提

高信息交互效率,降低应用门槛。大语言模型需要通过输入文本prompt来激

发模型的文本回应,然而,编写精准的prompt往往需要一定的技巧和思考。纯

文本的交互方式有时会受到文本表达能力的限制,使得复杂的概念或需求难以传

达。相较之下,多模态模型的图像交互方式门槛更低,更为直观。用户可以直接

提供图像或视觉信息,从而提升信息交互的效率。

与传统机器视觉模型对比:多模态大模型泛化能力更强,对知识、逻辑理解更具

深度。传统机器视觉模型只能处理图像数据,无法处理文本信息,也不具备逻辑

推理能力。由于这些模型仅对图像数据进行表征编码,通过提取视觉特征如颜色,

纹理和形状等来识别图像,没有涉及语言模态。这是由于多数视觉模型是针对特

定任务设计的,因此在处理不同任务或数据集时,其可迁移性受到限制。而多模

态大模型通过联合训练各种感知模态如图像、文本和声音等,能够学习到更通用

和抽象的特征表示。这种预训练使得多模态模型在各种应用中都具备强大的基础

性能,因此具有更高的泛化能力,进而赋予了更强的可迁移性和更广泛的应用范

围。

多模态的扩展不一定是技术主线的重大突破,但对产业应用落地的影响可能十分

巨大。从技术视角看,回顾AI的发展历程可以大致分为四个阶段,分别为基于

规则的系统、经典机器学习技术、深度学习、使用RF或其他技术的下一阶段

深度学习。整体来看在发展进程中,越来越多的训练环节被替换为可学习模块,

可学习模块越多的模型能适应的任务越抽象,这也赋予模型逐步从单一模态向多

模态发展的能力。OpenAI科学家HyungWonChung认为损失函数逐步变成

系统中的可学习部分将会是未来的下一个范式,对抗生成网络(GAN)和人类

反馈强化学习(RLHF)都是这一范式下的成功案例,这让AI系统可以学习去

做那些正确行为难以形式化的任务。在未来发展趋势中,范式转变可能在可学习

的损失函数,带来下一阶梯式技术跨步。从产业视角看,大模型输入模态从文本

向语音和图像等模态的扩充,将进一步提升产业应用的适应性,更多语音、视觉

信息占比较高的场景将接入多模

文档评论(0)

bamboo + 关注
实名认证
文档贡献者

太懒,没写

1亿VIP精品文档

相关文档