网站大量收购独家精品文档,联系QQ:2885784924

关于端到端自动驾驶的四个常见误区.docxVIP

关于端到端自动驾驶的四个常见误区.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

01

疑惑一:端到端感知,端到端

决策规划都可以算作是

端到端自动驾驶?

首先端到端自动驾驶的定义基本上大家明确了是指从传感器输入开始到规划甚至控制信号输出(马斯克所说PhotontoControl)中间所有的步骤都是端到端可导,这样整个系统可以作为一个大模型进行梯度下降的训练,通过梯度反向传播可以在模型训练期间对模型从输入到输出之间的全部环节进行参数更新优化,从而能够针对用户直接感知到的驾驶决策轨迹,优化整个系统的驾驶行为。而最近一些友商在宣传端到端的自动驾驶的过程中声称自己是端到端感知,或者端到端的决策,但这二者其实我认为都不能算作是端到端的自动驾驶,而只能被称作纯数据驱动的感知和纯数据驱动的决策规划。

甚至有的人将模型出决策,再结合传统方法来做安全校验和轨迹优化的混合策略也叫做端到端规划,另外也有说法认为TeslaV12并不是纯粹的模型输出控制信号,应该也是结合了一些规则方法的混合策略,根据就是http://X.com上的著名Tesla黑客Green前段时间发过一条twitter称在V12技术栈里还是能够发现规则的代码。对此我的理解是Green发现的代码很可能是V12高速技术栈保留的V11版本代码,因为我们知道目前V12其实只是用端到端替换了原本城市技术栈,高速仍旧会切回V11的方案,因此在破解的代码中找到一些规则代码的只言片语并不代表V12是假“端到端”而是找到的很可能是高速的代码。实际上我们从2022年的AIDay上就可以看出,V11及以前的版本已经是混合方案,因此V12如果不是彻底的模型直出轨迹,那么方案上就和之前的版本没有什么本质的区别了,如果是这样V12的性能跳跃性提升又没办法合理的解释了。关于Tesla之前的方案可以参考我的AIDay解读EatElephant:TeslaAIDay2022-万字解读:堪称自动驾驶春晚,去中心化的研发团队,野心勃勃的向AI技术公司转型。

从2022年AIDay上来看,V11已经是混合了NNPlanner的规划方案

总而言之,无论是感知后处理代码,还是规划的候选轨迹打分,甚至是安全兜底策略,一旦引入了规则的代码,有了ifelse的分支,整个系统的梯度传递就会被截断,这也就损失了端到端系统通过训练获得全局优化的最大优势。

02

疑惑二:端到端是

对之前技术的推倒重来?

另一个常见的误区是端到端就是推翻了之前积累的技术进行彻底的新技术的革新,并且很多人觉得既然Tesla刚刚实现了端到端自动驾驶系统的用户推送,那么其他厂商根本不用再在原本感知,预测,规划的模块化技术栈上迭代,大家直接进入端到端的系统,反而可以凭借后发优势快速追上甚至赶超Tesla。确实以一个大模型来完成从传感器输入到规划控制信号的映射是最为彻底的端到端,也很早就有公司尝试过类似的方法,例如Nvidia的DAVE-2和Wayve等公司就使用了类似的方法。这种彻底的端到端技术确实更接近黑盒,很难进行debug和迭代优化,同时由于传感器输入信号如图像,点云等是非常高纬度的输入空间,输出控制信号如方向盘转角和油门刹车踏板是相对输入来说非常低维的输出空间。由高维空间向低维空间的映射是由非常多的可行映射,然而这其中真正对应正确可靠逻辑的映射则只是其中一个映射,也就是说直接进行这样的端到端训练非常容易过拟合,导致实车测试完全无法使用。

彻底的端到端系统也会使用一些常见的如语义分割,深度估计等辅助任务帮助模型收敛和debug

所以我们实际看到的FSDV12保留了几乎所有之前的可视化内容,这表明FSDV12是在原本强大的感知的基础上进行的端到端训练,从2020年10月开始的FSD迭代并没有被抛弃,反而是成为了V12坚实的技术基础。AndrejKarparthy之前也回答过类似问题,他虽然没有参与V12的研发,但他认为所有之前的技术积累并没有被抛弃,只是从台前迁移到了幕后。所以端到端是在原有技术基础上一步步去掉个部分的规则代码逐渐实现的端到端可导。

V12保留了FSD几乎所有的感知,只取消了椎桶等有限的可视化内容

03

疑惑三:学术Paper中的端到端

能否迁移到实际产品中?

UniAD成为2023年CVPRBestPaper无疑代表了学术界对端到端的自动驾驶系统寄予的厚望。从2021年Tesla介绍了其视觉BEV感知技术的创新后,国内学术界在自动驾驶BEV感知方面投入了非常大的热情,并诞生了一些列研究,推动了BEV方法的性能优化和落地部署,那么端到端是否也能走一条类似的路线,由学术界引领,产业界跟随从而推动端到端技术在产品上的快速迭代落地呢?我认为是比较难的。首先BEV感知还是一个相对模块化的技术,更多是算法层面,且入门级性能对数据量的需求没有那么高,高质量的学术开源数据集Nuscenes的推出为很多

文档评论(0)

外卖人-小何 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档