网站大量收购闲置独家精品文档,联系QQ:2885784924

多模态大模型技术演进及研究框架.pptx

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

目录

一、多模态预训练概述

二、多模态预训练关键要素三、主要模型与下游场景

四、未来方向及演进趋势五、风险提示

中信建投证券

CHINASECURITIES

1、以BERT为主的Transformer模型取得很好的效果,但是仅限于文本领域;

2、Transformer中自注意力机制和前向传播网络权重共享适合于多模态模型。

1、将图片patch化,解决了Transformer不能应用于图像领域问题;

2、patchembedding提取图像特征高效;

3、基于ViT模型衍生了视频Transformer相关模型。

1、将生成式预训练MLM方法从NLP迁移至CV,实现CV大规模自监督预训练;

2、统一多模态大模型BEiT-3前身。

与CLIP结合,衍生多个文图生成模型,文图生成领域火爆

技术奇点

多模态大模型的技术奇点在于:

1、BERT等模型证明了Transformer在NLP领域性能好,并且对于数据量、模型大小而言未见上限;

2、ViT模型将Transformer模型迁移到CV领域,让Transformer能够处理图像;3、BEiT将生成式预训练从NLP迁移到CV,图像大规模自监督学习成为可能。4、扩散模型与多模态大模型结合,推

动文生图领域发展。

应用催化

各式多模态场景下的应用持续

推动多模态模型的演进

Transformer

处理图像

VisionTransformer

生成式预训练

BEiT

扩散模型

多模态检索

虚拟人/智能助理

机器人技术

证券

RITIES

智能家居

机器翻译

概述总括

1.1多模态表示包含两个或两个以上事物表现形式

·模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,是从多个视角出发对事物进行描述。生活中常见多模态表示,例如传感器的数据不仅仅包含文字、图像,还可以包括与之匹配的温度、深度信息等。

·使用多模态数据能够使得事物呈现更加立体、全面,多模态研究成为当前研究重要方面,在情感分析、机器翻译、自然语言处理和生物医药前沿方向取得重大突破。

图表:利用多模数据能有助于学习

资料来源:Multimodaldataasameanstounderstandthelearningexperience

Learner-ComputerInteraction

FeatureExtractionandSelection

中信建投证券

CHINASECURITIES

MultimodalData

Prediction

FeatureExtraction

Keystrokes

Arousal

Face

0.0

02

1970s-1980s末

行为时代

1980s末-2000

计算时代

2000-2010

交互时代

2010-2020

深度学习时代

2020至今

大模型开启新时代

1973

多模式行为疗法(Arnold

Lazarus)

人格的七个维度

1980

多模态信号检测:独立决策与整合

1983

婴儿在多模态事件中的物质感知与时间同步性

1986

McGurk效应

视频音频语音识别(AVSR)1986

第一个AVSR系统

多模态/多感知接口1993

Glove-talk(Fels,Hinton)多模态人机交互

多媒体计算

镜头边缘检测(1991-)

静态/动态视频摘要(1992-)

高级解析((1997-)自动标注(1999-)

拟人类多模态交互

2001

AMIProject

记录、处理会议数据

2003

CALOProject

Siri的前身

2008

SSPProject

社交信号处理网络

多媒体信息检索2001

NISTTRECVID

视频检索竞赛

010

DICITALVIDEORETRiEVAL

Ns

2021

CLIP模型诞生

2022

基于CLIP的DALL·E2模型

发布

BEiT-3模型发布

2023

微软发布微软KOSMOS-1;谷歌发布PaLM-E,把图像

和语言模型的能力拓展到

对机器人的控制

1.2多模态发展主要经历五个时代

图表:多模态模型发展的五个阶段

2012

基于深度玻尔兹曼机的多

模态学习(Srivastava,

Salakhutdinov)

2015

显示,参加和讲述:具有

视觉注意的神

您可能关注的文档

文档评论(0)

chenzehao888 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档