网站大量收购闲置独家精品文档,联系QQ:2885784924

大模型时代的具身智能.pptx

  1. 1、本文档共212页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;什么是智能机器人?;机器人的从古至今;机器人的从古至今 公元前4世纪;机器人的从古至今 公元15世纪;机器人的从古至今;机器人的从古至今;智能机器人;最受关注的智能机器人——类人机器人;10;11;人工智能真的让机器人智能了吗?;我们设想中的智能机器人是什么?;纵观人工智能发展;大模型与人形机器人结合形成智能机器人;RESEARCHCENTERFORSOCIALCOMPUTINGANDINFORMATIONRETRIEVAL;构建智能机器人(以人形机器人为例);举个不是特别形象的简单例子;RESEARCHCENTERFORSOCIALCOMPUTINGANDINFORMATIONRETRIEVAL;构建智能机器人的技术,我们具备和不具备哪些?;构建智能机器人的技术,我们具备和不具备哪些?;当前人工智能这几个方面存在哪些问题?;当前人工智能这几个方面存在哪些问题?;当前人工智能这几个方面存在哪些问题?;当前人工智能这几个方面存在哪些问题?;因此,当前人工智能还不足以让机器人更智能,需要具身智能;机器人能学习文本图像,能学会走路吗?;具身智能的定义;环境

仿真环境;;具身感知;具身感知;具身感知;具身感知;物体感知;物体感知范畴;物体几何形状感知;PointNet;MeshNet;VoxelNet;DeepSDF(SignedDistanceFunction);OccupancyNetworks占用概率网络;几何形状感知的下游任务:物体位姿估计;构建同类别物体统一坐标空间;具身感知小结一(提前放在这里,应对可能的疑惑);物体抓取;Anygrasp;CoPA:结合大模型物体感知的抓取;物体感知范畴;铰接结构;铰接结构数据来源;铰接物体表示方法;建模关节参数表示铰接物体;建模位移情况表示铰接物体;铰接结构的下游任务;交互感知获取物体铰接结构;物体可供性预测;物体感知范畴;物理属性;物理属性辅助操作解决视觉遮挡问题;场景感知;62;63;场景信息构成;易利用的场景信息;难利用的场景信息;67;场景重建;场景重建-新方法;场景重建-新任务;具身感知小结二;主动映射;主动映射;主动定位;场景重建-新表示;76;场景理解;物体识别;物体识别-物理交互;物体识别-更改视点;空间关系推理;时序变化检测;场景变化检测;场景动态感知;行为感知;行为感知;手势识别;人体姿态检测;社交导航机器人自动驾驶;人机协作装配场景下防碰撞;人类行为理解;人类行??理解:统一的动作-语言生成预训练模型;人类行为理解:可理解人类动作和视频的大语言模型;表达感知;表达感知概述;表达感知研究意义;面部情感感知;面部情感感知:复杂环境下的面部情感感知;语音情感感知&多模态情感感知;意图推断;指代表达;指代表达的理解;;具身感知;具身感知;具身推理;107;任务规划;任务规划简介;任务规划简介;任务规划早期方法:专家系统;任务规划早期方法:统一建模语言;基于深度学习技术的任务规划:RPN网络;结合大模型的任务规划:大模型作为转换器;结合大模型的任务规划:大模型作为规划器;构建用于任务规划的具身智能体;微调大模型用于任务规划;训练小模型检测可行性,与大模型结合;任务规划的评估;任务规划的关键问题、关键信息;通用执行模型出现后的任务规划;导航;训练小模型检测可行性,与大模型结合;基于规则的导航;基于学习的导航;视觉导航;提取视觉信息;提取视觉信息;建模环境信息;路径规划;视觉语言导航;自监督的辅助推理任务提高VLN效果;结合LLM的具身导航;视觉语言联合模型的应用;大模型基于构建的地图;大模型基于图片转换成的文本描述输出规划;具身问答;具身问答;具身问答方法创新;具身问答任务创新;具身问答数据集与盲人Benchmark;;143;具身执行;环境

仿真环境;具身执行:技能学习;技能学习的两类方法;模仿学习;模仿学习;模仿学习可以分为两部分:对图像的编码,图像表示映射到动作

一般而言,图像的编码器使用预训练的视觉编码器更好,如果只使用样例数据集训练编码器会导致实际应用中缺乏泛化性

机器人的动作空间一般是连续的。对于连续动作值的预测一般有以下几类:;直接策略:行为克隆;行为克隆可能出现的问题以及动作聚类方法;隐式策略:隐行为克隆;扩散策略;扩散策略;策略学习:最近邻居算法;强化学习;强化学习:奖励函数指导的交互学习框架;TD-MPC2Model-based;EUCLIDModel-based;Grasp-Q-NetworkModel-free;未来方向;通用执行模型;未来方向;什么最重要?泛化!泛化!泛化!以RT-1实验为例;具体效果:RT-1;具体效果:RT-1;具体效果:RT-1;具体效果:RT-2;具体效果:RT-2;具体效果

文档评论(0)

加油,奥利给✊ + 关注
实名认证
内容提供者

无所谓。

1亿VIP精品文档

相关文档