书生万象大模型的技术演进与应用探索.pptx

书生万象大模型的技术演进与应用探索.pptx

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

书生·万象多模态大模型的技术演进与应用探索

演讲人:王文海;

目录

1多模态大模型研究背景2大规模视觉语言模型对齐3强多模态模型构建

4不止于语言输出:通专融合;;

研究背景:大语言模型多模态大模型;

研究背景:大语言模型多模态大模型;

研究背景:大语言模型多模态大模型;

目录

1多模态大模型研究背景2大规模视觉语言模型对齐3强多模态模型构建

4不止于语言输出:通专融合;

InternVL:大规模视觉语言模型对齐;

vision

encoder;

设计1:扩大视觉模型至6B参数

步骤1:固定60亿参数,网格有哪些信誉好的足球投注网站模型宽度、深度、MLPRatio和AttentionHead维度

步骤2:使用CLIP作为代理任务,找到在速度、准确性和稳定性之间取得平衡的模型;

设计1:扩大视觉模型至6B参数

基于原始ViT结构,通过有哪些信誉好的足球投注网站模型深度{32,48,64,80},注意力头维度{64,128},以及MLP比率{4,8},将视觉模型扩大至6B参数,找到速度、精度、稳定性平衡的模型;;;

设计2:渐进式的图像-文本对齐策略

阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像)

阶段2:利用过滤后的高质量图文数据进行对比学习和生成式联合训练(~1B图像);;

多模态对话数据收集

包含图像描述、物体检测、OCR、科学、图表、数学、常识、文档、多轮对话、

文本对话...;

InternVL:大规模视觉语言模型对齐;

在多种通用视觉语言任务上的取得了最好的性能,包括:

1)视觉任务:图像/视频分类,语义分割;

2)视觉-语言任务:图像/视频-文本检索,零样本图像分类;

3)通用视觉问答:图像描述,视觉问答,多轮对话;

InternVL:大规模视觉语言模型对齐;

多语言的零样本图文检索评测

检索性能优于CLIP、OpenCLIP、CoCa等模型;

InternVL:大规模视觉语言模型对齐;

?即插即用的为现有扩散模型增加多语言能力

?只需要英文数据训练,即可泛化到其他语言

?支持多种语言的混合输入,甚至是emoji

?无需额外训练,即可兼容社区模型,如ControlNet,LCM,LoRA等;

InternVL+LanguageAdapter-Zeroshot多语言内容生成;

InternVL+LanguageAdapter-Zeroshot多语言内容生成;

目录

1多模态大模型研究背景2大规模视觉语言模型对齐3强多模态模型构建

4不止于语言输出:通专融合;

增强图文多模态对话能力3个关键点

主体(强基础模型):更大的视觉模型可以包含更广的视觉domain,抽取更强的视觉表征,更强的语言

模型有更强的语言能力、世界知识和推理能力

动态分辨率(火箭头):模型需要根据任务调整不同的分辨率。对于一些图像细节的理解任务,如:文档理解,高分辨率非常重要。但是对于一些常见的问答

任务又不需要大分辨率。

燃料(高质量数据集):多语言、多来源、精细标注;Grok-1.5V;

InternVL1.5:接近GPT-4V的开源多模态对话模型;

在MMMU,MMBench等评测上比肩GPT-4o

和GeminiPro1.5

加速ScalingLaw曲线,仅需原有的1/5的算力即可取得同等的效果

算力;

和头部商用模型对比;

更强的OCR能力:毛笔字+竖排+繁体;

更强的图表理解能力;

细节文字理解+文字深层含义;

细节文字理解+文字深层含义;

结合专业知识问答;

理解人工布置的巧妙之处;

图-文-动作结合回答;

https://github;;

InternOmni:ExtendingInternVLwithAudioModality;

目录

1多模态大模型研究背景2大规模视觉语言模型对齐3强多模态模型构建

4不止于语言输出:通专融合;

不止于语言输出:通专融合;

不止于语言输出:通专融合;

不止于语言输出:通专融合;

不止于语言输出:通专融合;

不止于语言输出:通专融合;

不止于语言输出:通专融合;

/OpenGVLab/InternVL;

不止于语言输出:通专融合;

不止于语言输出:通专融合

文档评论(0)

gayl22 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档