- 1、本文档共52页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
书生·万象多模态大模型的技术演进与应用探索
演讲人:王文海;
目录
1多模态大模型研究背景2大规模视觉语言模型对齐3强多模态模型构建
4不止于语言输出:通专融合;;
研究背景:大语言模型多模态大模型;
研究背景:大语言模型多模态大模型;
研究背景:大语言模型多模态大模型;
目录
1多模态大模型研究背景2大规模视觉语言模型对齐3强多模态模型构建
4不止于语言输出:通专融合;
InternVL:大规模视觉语言模型对齐;
vision
encoder;
设计1:扩大视觉模型至6B参数
步骤1:固定60亿参数,网格有哪些信誉好的足球投注网站模型宽度、深度、MLPRatio和AttentionHead维度
步骤2:使用CLIP作为代理任务,找到在速度、准确性和稳定性之间取得平衡的模型;
设计1:扩大视觉模型至6B参数
基于原始ViT结构,通过有哪些信誉好的足球投注网站模型深度{32,48,64,80},注意力头维度{64,128},以及MLP比率{4,8},将视觉模型扩大至6B参数,找到速度、精度、稳定性平衡的模型;;;
设计2:渐进式的图像-文本对齐策略
阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像)
阶段2:利用过滤后的高质量图文数据进行对比学习和生成式联合训练(~1B图像);;
多模态对话数据收集
包含图像描述、物体检测、OCR、科学、图表、数学、常识、文档、多轮对话、
文本对话...;
InternVL:大规模视觉语言模型对齐;
在多种通用视觉语言任务上的取得了最好的性能,包括:
1)视觉任务:图像/视频分类,语义分割;
2)视觉-语言任务:图像/视频-文本检索,零样本图像分类;
3)通用视觉问答:图像描述,视觉问答,多轮对话;
InternVL:大规模视觉语言模型对齐;
多语言的零样本图文检索评测
检索性能优于CLIP、OpenCLIP、CoCa等模型;
InternVL:大规模视觉语言模型对齐;
?即插即用的为现有扩散模型增加多语言能力
?只需要英文数据训练,即可泛化到其他语言
?支持多种语言的混合输入,甚至是emoji
?无需额外训练,即可兼容社区模型,如ControlNet,LCM,LoRA等;
InternVL+LanguageAdapter-Zeroshot多语言内容生成;
InternVL+LanguageAdapter-Zeroshot多语言内容生成;
目录
1多模态大模型研究背景2大规模视觉语言模型对齐3强多模态模型构建
4不止于语言输出:通专融合;
增强图文多模态对话能力3个关键点
主体(强基础模型):更大的视觉模型可以包含更广的视觉domain,抽取更强的视觉表征,更强的语言
模型有更强的语言能力、世界知识和推理能力
动态分辨率(火箭头):模型需要根据任务调整不同的分辨率。对于一些图像细节的理解任务,如:文档理解,高分辨率非常重要。但是对于一些常见的问答
任务又不需要大分辨率。
燃料(高质量数据集):多语言、多来源、精细标注;Grok-1.5V;
InternVL1.5:接近GPT-4V的开源多模态对话模型;
在MMMU,MMBench等评测上比肩GPT-4o
和GeminiPro1.5
加速ScalingLaw曲线,仅需原有的1/5的算力即可取得同等的效果
算力;
和头部商用模型对比;
更强的OCR能力:毛笔字+竖排+繁体;
更强的图表理解能力;
细节文字理解+文字深层含义;
细节文字理解+文字深层含义;
结合专业知识问答;
理解人工布置的巧妙之处;
图-文-动作结合回答;
https://github;;
InternOmni:ExtendingInternVLwithAudioModality;
目录
1多模态大模型研究背景2大规模视觉语言模型对齐3强多模态模型构建
4不止于语言输出:通专融合;
不止于语言输出:通专融合;
不止于语言输出:通专融合;
不止于语言输出:通专融合;
不止于语言输出:通专融合;
不止于语言输出:通专融合;
不止于语言输出:通专融合;
/OpenGVLab/InternVL;
不止于语言输出:通专融合;
不止于语言输出:通专融合
您可能关注的文档
- 2024年睡眠监测类设备行业概览:科技赋能,深度洞察睡眠健康.docx
- 2024年天然石墨行业概览:“黑马”材料支撑多领域战略发展.pptx
- 2024年研发投入前1000家民营企业创新状况报告.docx
- 2024年月子中心品质价值指数白皮书.pptx
- 2024松下可持续发展报告.docx
- AI+金属材料:从大数据到新材料,AI助力寻找下一代超级合金.docx
- 宠物专题报告(二):立足当下,着眼未来,如何看待我国宠物产业出海的差距和成长?.docx
- 地板行业市场规模测算逻辑模型.pptx
- 纺织服饰:新质生产力打开消费新空间——时尚八品,新质未来.pptx
- 教育大模型行业市场规模测算逻辑模型 头豹词条报告系列.pptx
文档评论(0)