- 1、本文档共24页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
2025中国汽车流通行业
新春启航大会暨促消费大会
大模型时代的新能源汽车自动
驾驶发展趋势
2025.2.22
提纲OUTLINES
一、范式变革:基于多模态大模型的自动驾驶技术
二、世界模型驱动的一段式端到端解决方案可望获得突破
三、发展趋势:从感知智能到认知智能
提纲OUTLINES
一、范式变革:基于多模态大模型的自动驾驶技术
二、世界模型驱动的一段式端到端解决方案可望获得突破
三、发展趋势:从感知智能到认知智能
一、范式变革:基于多模态大模型的自动驾驶技术
•VLM:视觉-语言(文本)模型
1、多模态大模型推动具身智能体发展
•VLA:视觉-语言-动作模型
VLA融合了感知空间与动作空间,给出了两个空间与三大任务:
•两大空间:从感知或观察空间到动作空间,还是从动作空间到感知空间?
•两个空间之间的单段式或单模型一体化相互作用;
•三个下游微调模型,即三大任务:具身理解、具身推理与具身动作生成大模型;
•基于上述三大微调模型,可优化训练更多的下游微调模型
感知空间决策推理或策略动作空间
本质上将VLM面向数字空间的理解与生
成推向了面向物理世界的理解与生成!
一、范式变革:基于多模态大模型的自动驾驶技术
•VLM:视觉-语言(文本)模型
1、多模态大模型推动具身智能体发展
•VLA:视觉-语言-动作模型
-性能增强的VLA:可望提升图像、视频、3D点云与语义地图等多模态数据的
语义对齐水平,从而获得更好的交叉理解;
2025中国汽车流通行业
新春启航大会暨促消费大会
一、范式变革:基于多模态大模型的自动驾驶技术
•VLM:视觉-语言(文本)模型
1、多模态大模型推动具身智能体发展
•VLA:视觉-语言-动作模型
-性能增强的VLA:也可望改善开放场景下的实例分割与目标检测准确率,实现
更好的视觉“分词”;
如谷歌Waymo达到99.3%
2025中国汽车流通行业
新春启航大会暨促消费大会
一、范式变革:基于多模态大模型的自动驾驶技术
•VLM:视觉-语言(文本)模型
1、多模态大模型推动具身智能体发展
•VLA:视觉-语言-动作模型
-性能增强的VLA:对时空动态场景的预测,或将有效嵌入真实世界的物理学规
律,从而获得更好的避碰能力;
一、范式变革:基于多模态大
您可能关注的文档
最近下载
- Python期末复习题(必考) .pdf VIP
- 现代汉语课件词汇.ppt VIP
- 2025年深圳市盐田港集团有限公司人员招聘笔试备考题库及答案解析.docx
- 计划生育避孕药具督导考核表.xlsx VIP
- 22D701-3电缆桥架安装(26.9MB)(26.85MB)5ce2e72e69780631(1).pdf VIP
- Python基础知识点总结.docx VIP
- 化工设计竞赛PFD图.pdf VIP
- 哈希HACH-NPW-160H总磷-总氮水质在线分析仪 使用手册-操作说明书.pdf
- 2025-2030中国桥梁检查与维护行业市场发展趋势与前景展望战略研究报告.docx
- 招标控制价毕设答辩.pptx
文档评论(0)