自动驾驶单视图和多视图深度的自适应融合.docxVIP

自动驾驶单视图和多视图深度的自适应融合.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1.引言

随着计算机视觉的发展,基于深度学习的单目多视角深度估计已经在多个公开数据集上展现出了卓越的性能,在理想情况下,它比单视角深度估计拥有更高的精度(metricscale)和鲁棒性。但是多视角深度估计的精度高度依赖于相机内参,相机位姿的精度,以及足够的translation来进行三角化获取metricdepth。而在实际的自动驾驶应用场景中,通过SLAM获得的位姿以及相机内参是带有噪声的,并且汽车可能会在交通灯处停车或者因掉头而没有足够的translation,这些不可避免的退化场景是无法满足投影原理的,进而极大的影响多视角深度估计的精度。

为了应对退化场景这一挑战,我们提出了单视角和多视角的自适应融合方法AFNet。相比多视角,单视角深度估计更多的是依赖于从训练数据中获取的对场景的语义理解以及透视投影线索,在无纹理区域,以及动态场景会更加鲁棒,并且不依赖于相机位姿,所以对于上述退化场景下是更有优势的。但是由于尺度模糊问题,单视角深度估计的精度是低于多视角深度估计的。

因此我们认为,能不能通过一种融合方式,充分的发挥单视角和多视角深度估计的优势,在保持多视角的高精度的同时,融合获得单视角深度估计在退化场景下的鲁棒性,同时达到精度高鲁棒性好。

因此,我们通过设计基于重投影置信度的自适应融合方法,在不同场景下去自适应选择单视角和多视角深度估计中更可靠的分支,实现了同时在噪声pose以及精准pose下的高精预测,极大的提升了深度估计系统的鲁棒性。

作者的贡献可以总结如下:

我们提出了AFNet来自适应的融合单视角和多视角深度从而获得了更加鲁棒高精的fusiondepth,在DDAD和KITTI自动驾驶数据集达到了SOTA。

我们是第一个提出融合单视角和多视角来解决多视角深度估计在噪声pose等退化场景下会fail的,并且提出了一个新的鲁棒性测试benchmark来评估多视角深度估计系统在噪声pose下的性能。我们的方法在鲁棒性测试benchmark上也是达到了SOTA。

我们提出的AFmodule能够提升多视角深度估计方法在动态物体区域的性能。

2.方法

1.整体结构

AFNet的整个网络架构如上图所示,网络主要由三个模块组成:单视角分支,多视角分支以及自适应融合模块(AFmodule)。单视角分支和多视角分支共享特征提取网络,拥有各自的预测和置信度图,即?、、?和?,然后由??模块进行融合,得到最终准确、鲁棒的融合深度?。

2.单视角和多视角分支

单视角分支和多视角分支共享特征提取,单视角分支是常规的encoder-decoder架构,得到single-viewdepthfeature??,然后对??沿着通道进行softmax操作得到depthprobabilityvolume?,?最后一个通道纬度是对应的confidencemap??。最终的single-viewdepth??由下述公式得到:

是对深度概率体进行加权求和得到最终的单目深度。

这里面还有一个比较关键的点是featurefusion,由于single-viewdepth是从语义中回归深度,multi-viewdepth更多的是从多视角的特征匹配中获取深度,那么本质上二者学习到的特征是不同的模态,能够进行互补,所以在这里我们进行了featurefusion:

通过将单视角分支的特征以残差结构的形式融入到多视角的特征中,用于补充多视角分支costvolum在不断地聚合,上下采样中极易丢失的语义信息和细节信息,提升了多视角分支在无纹理区域和边缘区域的表现。

多视角分支的输入是关键帧和参考帧,以及相对pose,使用了经典的基于costvolume聚合的架构,对costvolume进行解码得到最终的multi-viewdepth以及对应的confidencemap??。在这两个分支中,??和??一定程度上分别反映了二者depth的可靠程度。

3.自适应融合模块

自适应融合模块是AFNet的核心模块,它的作用是将两个分支的深度进行融合,从而发挥各自的优势,达到更高精度且更鲁棒的效果。我们通过三个置信度?、?和??来进行融合,其中??是关键。我们通过将非关键帧根据多视角深度??以及输入pose进行warping到关键帧,warping后的image表示为?,,理论上,当depth和pose以及相机内参精准时,warpingimage和关键帧??在静态且非遮挡区域应当是完全一致的,因此这就能给我们提供是否出现退化的信息。因此我们通过下述公式得到warpingconfidence:

无论是pose含有噪声,多视角深度

文档评论(0)

外卖人-小何 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档