智能汽车 · 2023年11月4日 0

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

对于自动驾驶的许多任务说,从自而下、地图或鸟瞰 (BEV) 几个角度会更容易完。由于许多自动驾驶主题限制,所以俯视图是一实用征,对于导航也更加理想,能够捕获相关障碍危险。对于像自主驾驶这样的场景,语义分割的 BEV 地图必须作为瞬时估计,以处理自由移动对象和只访问一次的场景

要想从图像推断 BEV 地图,就需要确定图像素与它们环境位置之间的对应关系。此前的一些研究以稠密深图和图像分割地图指导转换过程,还有研究了隐式解析和语义的方法。一些研究利用了相的几何先验,但并没有明确学习图像素和 BEV 平之间的相互作用

近期一篇自萨里大研究者引入了注意制,将自动驾驶的 2D 图像转换为鸟瞰图,使得模型的识别准确提升15%。这研究在不久前落幕的 ICRA 2022 会议获得了杰

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

文链接:https://aRxiv.oRg/pdf/2110.00966.pdf

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

与以往的方法不同,这研究将 BEV 的转换视为一个「image-to-WoRld」的转换问题,其目标是学习图像的垂直扫描线(veRtical scan lines)和 BEV 的极射线(polaR Ray)之间的对齐。因此,这射影几何对网络说是隐式的。

在对齐模型研究者了 TRansfoRMeR基于注意的序列预测结构。利用注意机制,研究者明确模了图像垂直扫描线与其极性 BEV 投影之间的对相互作。TRansfoRMeR 非常适合图像到 BEV 的转换问题,因为它们可以推理物体、深和场景照明之间的相互依赖关系,以实现全局一致的征。

研究者将基于 TRansfoRMeR 的对齐模型嵌入到一个端到端学习公式,该公式目图像及其固有矩阵为输入,然预测静态和动态类的语义 BEV 映射。

本文了一个体系结构,有于从对齐模型周围的目图像预测语义 BEV 映射。如下图 1 所示,它包含三个主要组部分:一个标准的 CNN 骨干,于提取图像平空间特征;编码器 – 解码器 TRansfoRMeR 将图像平特征转换为 BEV;最一个分割网络将 BEV 特征解码为语义地图

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

具体而言,这研究的主要贡献在于:

(1)一组 1D 序列 – 序列的转换从一幅图像一个 BEV 图;(2)构建了一个受限制的数据效的 TRansfoRMeR 网络,具备空间感知能;(3)公式和语言领域注意的结合明,对于精确的映射说,知道图像一个什么比知道它什么更重要,尽管两者都使用导致最佳性能;(4)展示了轴向注意如何过提供时间意识提高性能,并在三个大规模数据展示了最新的结果。实验结果

在实验研究者做了几项评估:将图像到 BEV 的转换作为 nUScenes 数据的转换问题评估其效;在注意消融回溯方向,评估序列水平下文的效和极位置信息(polaR posITional infoRMation)的影响。最,将该方法与 nUScenes 、ARgOVeRse 和 Lyft 数据的 SOTA 方法进行比较

消融实验

如下 2 的第一部分所示,研究者比较了软注意 (looking both waYs)、图像底部回溯(looking down) 的注意、图像顶部回溯 (looking up) 的单调注意结果明,从图像的一个向下比向

沿着局部的纹理线索&Mdash;&Mdash;这与类在城市环境试图确定物体距离方法是一致的,我们会利物体与相交的位置结果明,两个方向的观察都进一步提高了精,使深推理更具有识别

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

序列水平下文的效。此处的图像 – BEV 转换是作为一组 1D 序列 – 序列转换进行的,因此一个问题是,当整个图像被转换 BEV 时会发什么。虑到生注意图所需的二次计算时间和记忆,这方法得令望而却。然而,可以过在图像平特征水平轴向注意,取得近似使用整个图像的下文效益。借助过图像行的轴向注意,垂直扫描线的像素现在具备了距离水平下文,之像以前一样,过在 1D 序列之间转换来提供距离的垂直下文。

2 部分所示,合并序列水平下文并不会使模型受益,甚至略有不利影响。这说明了两:首先,每个转换的射线并不需要输入图像整个宽信息,或者更确切说,比起已经通过前端卷积聚合的下文,长序列下文并没有提供任何额外的处。这明,使用整个图像执行转换,不会让模型精提高以至超过 baseline 约束公式;此外,引入水平轴向注意导致的性能下降意味着使用注意训练图像宽的序列的困,可以看使用整个图像作为输入序列的话,会更难训练。

PolaR-agnostic vs polaR-adaptive TRansfoRMeRs: 2 最后一部分比较了 Po-Ag 与 Po-Ad 的变体。一个 Po-Ag 模型没有极位置信息,图像平的 Po-Ad 包括添加到 TRansfoRMeR 编码器的 polaR encodings,而对于 BEV 平,这些信息会加入到解码器。在任何一个平添加 polaR encodings 都比在不可知模型添加更有益处,其动态类的增加最多。将它添加到两个平面会进一步强化这一点,但对静态类的影响最大。

和 SOTA 方法对比

研究者将本文方法与一些 SOTA 方法进行了比较。如下 1 所示,空间模型的现优于目前压缩的 SOTA 方法 STA-S ,平均相对改善 15% 。在更小的动态类,改善更加显著,公共汽、卡、拖和障碍物的检测准确加了相对 35-45% 。

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

下图 2 得到的定性结果也支持了这一结本文模型显示更大的结构相似性和更好的形状感。这差异可以部分归因于于压缩的全连接层(FCL) : 当检测小而遥远的物体时,图像的大部分是冗余的下文。

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

此外,行等物体往往部分被辆挡住。在这种情况下,全连接层将倾向于忽略行,而是保持辆的语义。在这里,注意方法展示了它的优势,因为每个径向深都可以独立地注意到图像ーー如此,更深的深可以使行人的身体可见,而此前的深度只可以注意到车辆。

3 ARgOVeRse 数据集的结果展示了类似的模式,其中本文方法对比 PON [8]提高了 30% 。

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

如下 4 所示,本文方法在 nUScenes 和 Lyft 的表现优于 LSS [9]和 FIERY [20]。在 Lyft 上进行真正的对比是不可能的,因为它没有规范的 tRAIn/val 分割,而且无法获得 LSS 所使用的分割。

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

更多研究细节,可参考原论文。