- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
多模态通用大模型魏明强、宫丽娜计算机科学与技术学院智周万物?道济天下
o引言和目标o多模态数据集介绍oCLIPoGPT-4VoImageBindo3D-LLMoSora 目录2
3 目录o引言和目标o多模态数据集介绍oCLIPoGPT-4VoImageBindo3D-LLMoSora
o多模态大模型是一种能够同时处理和理解多种类型数据的人工智能模型,旨在模拟人类多感官的信息处理方式。o本章将介绍多模态大模型的基础概念、代表性模型(如CLIP和GPT-4V)、关键技术、实际应用,以及未来的发展趋势。学习目标:掌握多模态大模型的关键技术和代表性模型的架构; 引言和目标4
9 目录o引言和目标o多模态数据集介绍oCLIPoGPT-4VoImageBindo3D-LLMoSora
多模态数据集介绍10数据集年份模态描述图像文本点云GQA2019年??大规模视觉推理和问答数据集HowTo100M2019年??大规模叙事视频数据集Conceptual-12M2021年??拓展于ConceptualCaptions数据集YT-Temporal-180M2021年??覆盖多种主题的大规模多样化数据集WebVid-2M2021年??大规模视频-文本对数据集ModelNet2015年??广泛使用的合成3D模型数据集ShapeNet2015年??大规模的合成3D模型数据集ScanObjectNN2019年??真实世界中扫描得到的3D模型数据集KITTI2012年???广泛使用的真实自动驾驶基准数据集nuScenes2019年???标注细致的真实驾驶场景数据集Waymo2019年???大规模跨城市的真实自动驾驶数据集表10.1常用多模态数据集
多模态数据集介绍10GQA数据集示例HowTo100M数据集示例ScanObjectNN数据集示例KITTI数据集示例
14 目录o引言和目标o多模态数据集介绍oCLIPoGPT-4VoImageBindo3D-LLMoSora
CLIP:探索图文结合的奥秘CLIP是OpenAI提出的多模态大模型,CLIP融合了对语言和图像信息的综合处理,不仅在图像分类和物体检测等传统视觉任务上取得了领先的性能,而且在自然语言处理等领域也表现出色。对比学习预训练文本编码器Transformer图像编码器ResNet-50VisionTransformer(ViT)
CLIP:探索图文结合的奥秘训练过程??伪代码
CLIP:探索图文结合的奥秘CLIP的零样本预测能力
CLIP:探索图文结合的奥秘相关应用图像编辑开放词汇目标检测
CLIP:探索图文结合的奥秘相关应用文本生成图像文本生成三维形状
目录16o引言和目标o多模态数据集介绍oCLIPoGPT-4VoImageBindo3D-LLMoSora
GPT-4V:大模型视觉能力新篇章GPT-4V是OpenAI推出的多模态语言模型,它的主要特点是能够处理图像和文本输入。这使得它可以理解并生成与图像相关的文本描述,回答视觉相关的问题,甚至在更复杂的多模态任务中表现出色。在本节中,我们将重点介绍GPT-4V的输入模式及其所具备的部分视觉语言能力。GPT-4V能够处理三种主要类型的输入:纯文本输入单一图像-文本对输入交错图像-文本对输入
GPT-4V:大模型视觉能力新篇章
GPT-4V:大模型视觉能力新篇章上下文少样本示例学习
GPT-4V:大模型视觉能力新篇章理解和表达视觉信息在人类认知中扮演着至关重要的角色。GPT-4V以其卓越的视觉理解和描述能力,在解读图像信息方面展现出了极强的表现。GPT-4V展现了卓越的视觉语言能力,能够理解和表达复杂的视觉信息。这种能力体现在多个高级视觉任务中:名人识别地标识别食物识别医学影像分析场景理解
GPT-4V:大模型视觉能力新篇章高级视觉任务应用空间关系理解对象计数对象定位…………
o引言和目标o多模态数据集介绍oCLIPoGPT-4VoImageBindo3D-LLMoSora 目录2
ImageBind:多感官统一以CLIP和GPT-4V为代表的多模态大模型在音频、深度、热像等感官领域仍有一些不足。在这一背景下,MetaAI提出了一种多感官统一大模型,即ImageBind。六种感官统一到联合嵌入空间图像/视频文本音频深度热像IMU
ImageBind:多感官统一相关应用跨模态检索嵌入空间算术音频生成图像…
ImageBind:多感官统一PouringTrainsRain音频-图像文本-音频图像音频图像-图像应用示例
ImageBind:多感官统一使用方法(/facebookresearch/ImageBind.git)即插即用灵活可拓展多模
您可能关注的文档
- 大模型原理与技术-课件 chap1 绪 论.pptx
- 大模型原理与技术-课件 chap2 深度学习基础.pptx
- 大模型原理与技术-课件 chap3 自然语言处理.pptx
- 大模型原理与技术-课件 chap4 大模型网络结构.pptx
- 大模型原理与技术-课件 chap5 大模型训练与优化.pptx
- 大模型原理与技术-课件 chap6 大模型微调.pptx
- 大模型原理与技术-课件 chap7 大模型提示工程.pptx
- 大模型原理与技术-课件 chap8 高效大模型策略.pptx
- 大模型原理与技术-课件 chap9 单模态通用大模型.pptx
- 大模型原理与技术-课件 chap11 大模型评测.pptx
文档评论(0)