- 1、本文档共47页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
目录
一、多模态预训练概述
二、多模态预训练关键要素三、主要模型与下游场景
四、未来方向及演进趋势五、风险提示
中信建投证券
CHINASECURITIES
1、以BERT为主的Transformer模型取得很好的效果,但是仅限于文本领域;
2、Transformer中自注意力机制和前向传播网络权重共享适合于多模态模型。
1、将图片patch化,解决了Transformer不能应用于图像领域问题;
2、patchembedding提取图像特征高效;
3、基于ViT模型衍生了视频Transformer相关模型。
1、将生成式预训练MLM方法从NLP迁移至CV,实现CV大规模自监督预训练;
2、统一多模态大模型BEiT-3前身。
与CLIP结合,衍生多个文图生成模型,文图生成领域火爆
技术奇点
多模态大模型的技术奇点在于:
1、BERT等模型证明了Transformer在NLP领域性能好,并且对于数据量、模型大小而言未见上限;
2、ViT模型将Transformer模型迁移到CV领域,让Transformer能够处理图像;3、BEiT将生成式预训练从NLP迁移到CV,图像大规模自监督学习成为可能。4、扩散模型与多模态大模型结合,推
动文生图领域发展。
应用催化
各式多模态场景下的应用持续
推动多模态模型的演进
Transformer
处理图像
VisionTransformer
生成式预训练
BEiT
扩散模型
多模态检索
虚拟人/智能助理
机器人技术
证券
RITIES
智能家居
机器翻译
概述总括
1.1多模态表示包含两个或两个以上事物表现形式
·模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,是从多个视角出发对事物进行描述。生活中常见多模态表示,例如传感器的数据不仅仅包含文字、图像,还可以包括与之匹配的温度、深度信息等。
·使用多模态数据能够使得事物呈现更加立体、全面,多模态研究成为当前研究重要方面,在情感分析、机器翻译、自然语言处理和生物医药前沿方向取得重大突破。
图表:利用多模数据能有助于学习
资料来源:Multimodaldataasameanstounderstandthelearningexperience
Learner-ComputerInteraction
FeatureExtractionandSelection
中信建投证券
CHINASECURITIES
MultimodalData
Prediction
FeatureExtraction
Keystrokes
Arousal
Face
0.0
02
1970s-1980s末
行为时代
1980s末-2000
计算时代
2000-2010
交互时代
2010-2020
深度学习时代
2020至今
大模型开启新时代
1973
多模式行为疗法(Arnold
Lazarus)
人格的七个维度
1980
多模态信号检测:独立决策与整合
1983
婴儿在多模态事件中的物质感知与时间同步性
1986
McGurk效应
视频音频语音识别(AVSR)1986
第一个AVSR系统
多模态/多感知接口1993
Glove-talk(Fels,Hinton)多模态人机交互
多媒体计算
镜头边缘检测(1991-)
静态/动态视频摘要(1992-)
高级解析((1997-)自动标注(1999-)
拟人类多模态交互
2001
AMIProject
记录、处理会议数据
2003
CALOProject
Siri的前身
2008
SSPProject
社交信号处理网络
多媒体信息检索2001
NISTTRECVID
视频检索竞赛
010
DICITALVIDEORETRiEVAL
Ns
2021
CLIP模型诞生
2022
基于CLIP的DALL·E2模型
发布
BEiT-3模型发布
2023
微软发布微软KOSMOS-1;谷歌发布PaLM-E,把图像
和语言模型的能力拓展到
对机器人的控制
1.2多模态发展主要经历五个时代
图表:多模态模型发展的五个阶段
2012
基于深度玻尔兹曼机的多
模态学习(Srivastava,
Salakhutdinov)
2015
显示,参加和讲述:具有
视觉注意的神
您可能关注的文档
- 内燃机噪声与振动控制技术.doc
- 《主持人即兴口语》课件-01主持人即兴口语表达概述.pptx
- 人民大2024《税法》(第7版)PPT 梁文涛 CH1(1).pptx
- 蓝色清新蓝天卡通儿童初三毕业班期中家长会PPT.pptx
- 出院证明书 模板.docx
- 蓝色3d医院感染控制知识培训PPT模板宣传PPT动态PPT.pptx
- 现浇墩、台身质量检验评定表.doc
- 移动通信技术教案.doc
- 中国远洋海运集团2024校园招聘笔试高频考点考试题库及答案.doc
- 《国际商务谈判》课程教学大纲.doc
- GB/T 42125.2-2024测量、控制和实验室用电气设备的安全要求 第2部分:材料加热用实验室设备的特殊要求.pdf
- GB/T 42125.18-2024测量、控制和实验室用电气设备的安全要求 第18部分:控制设备的特殊要求.pdf
- GB/T 15972.40-2024光纤试验方法规范 第40部分:传输特性的测量方法和试验程序 衰减.pdf
- 中国国家标准 GB/T 15972.40-2024光纤试验方法规范 第40部分:传输特性的测量方法和试验程序 衰减.pdf
- 《GB/T 15972.40-2024光纤试验方法规范 第40部分:传输特性的测量方法和试验程序 衰减》.pdf
- GB/T 17626.36-2024电磁兼容 试验和测量技术 第36部分:设备和系统的有意电磁干扰抗扰度试验方法.pdf
- 中国国家标准 GB/T 17626.36-2024电磁兼容 试验和测量技术 第36部分:设备和系统的有意电磁干扰抗扰度试验方法.pdf
- 《GB/T 17626.36-2024电磁兼容 试验和测量技术 第36部分:设备和系统的有意电磁干扰抗扰度试验方法》.pdf
- GB/T 18851.1-2024无损检测 渗透检测 第1部分:总则.pdf
- 《GB/T 18851.1-2024无损检测 渗透检测 第1部分:总则》.pdf
文档评论(0)