- 1、本文档共190页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
从多模态联合预训练到多模态?语?模型:架构、训练、评测、趋势概览
魏忠钰(Wei,Zhongyu)
复旦大学
数据智能与社会计算实验室(FudanDISC)
自然语言处理组(Fudan-NLP)
2023年12?03?
中国中?信息学会前沿技术讲习班
合作者
李泽君
杜梦?
张霁雯
吴斌浩
王晔
周呈星
罗瑞璞
陈汉夫
?录
ChatGPT之前的视觉语?预训练
?视觉语?模型的架构和训练
?视觉语?模型的评测
?视觉语?模型的能?扩充
?语?模型?撑的具?智能(视觉导航)
任务模块语言视觉跨视觉语?模态的研究场景
任务
模块
语言
视觉
匹配
匹配
?成
?成
推理
推理
导航
导航
跨模态语义表示
跨模态语义表示
跨模态语义对?
跨模态语义对?
字
字
短语
短语
句?
句?
段落
段落
像素
像素
区域
区域
图?
图?
相册
相册
图像?本的语义匹配
给定?张图?,从句?集合中检索语义相关的句?。
给定?个句?,从图?集合中检索语义相关的图?。
评测指标:R@1(Recall@1),R@5,R@10
Image-train
Image-dev
Image-test
caption
MSCOCO
113,287
5,000
5,000
5foreachimage
Flickr30K
29,000
1,000
1,000
视觉指代理解(VisualReferringExpression)
给定?个语?表达,确定图?中指代的?标物体。
重叠?例IntersectionoverUnion(IoU):真实和预测的物体框。
如果IoU超过0.5,被认为真,否则为假。
图?数
?标物体数
?本表达
平均?度
RefCOCO
50,000
19,994
142,209
3.61
RefCOCO+
49,856
19,992
141,4564
3.53
RefCOCOg
26,711
54,822
85,474
8.43
基于视觉的?本?成
图?描述?成
相册故事?成
图?对话?成
评测指标:BLUE,ROUGE,MEOTER,SPICE
数据集
图?个数
描述个数
MSCOCO
300,000+
5perimage
Flickr30K
30,000
158,000intotal
Flickr8K
8,000
5perimage
VisualGenome
108,000+
1,445,322intotal
~10,000
~
5perimage
FlikrStyle10K
10,000
Romantic,humorous,factual
视觉语?问答(VisualQuestionAnsering)
数据集合
图?个数
问题个数
数据集特点
VQA2.0(2015)
204,721(coco)
1,105,904
10annotatedanswers:yes/no,number,other
CLEVR(2016)
100,000
864,968
Synthetic;Reasonaboutrelationshipsbetweenobjectsofdifferentshapes,colorsandsizes
Visual
Genome(2016)
108,077(coco,flickr)
1,445,322
Regionbasedqa-pairandcaption,scenegraph,objectdetectionwithannotatedattribute
GQA(2019)
113,018(coco,flickr,visualgenome)
22,669,678
Unbalanceddata;scenegraphbased;fullanswer;word-objectmapping
视觉常识推理(VisualCommonsenseReasoning)
任务:给定?张图?、?些?标物体、?个问题、四个答案,(1)让模型选择哪?个描述与图?是?致的,(2)让模型选择输出该答案的解释。
数据集VCR:从110k电影?段中,抽取的290K多选QA.
From
文档评论(0)