智能汽车

自动驾驶2D图像转换为鸟瞰图,模型识别准确率提升15%

2023年11月5日 · admin
openmagic ad

在自动驾驶的众多任务中,从俯视角度(鸟瞰图,BEV)观察环境往往能更有效地完成任务。由于许多自动驾驶系统局限于地面视角,俯视图作为一种更简洁的低维表示,更加适合导航,能够清楚地识别相关的障碍物和潜在的危险。在自主驾驶情境下,语义分割生成的BEV地图必须即时估计,以便处理移动对象和一次性访问的场景。

为了从图像推导出BEV地图,需要建立图像元素与其在环境中位置之间的对应关系。过去的研究利用稠密深度图和图像分割地图指导这一转换过程,此外,还有研究扩展了隐式解析深度与语义的方法。有些研究则借助相机的几何先验,但并未明确学习图像元素和BEV平面之间的互动关系。

最近,来自萨里大学的研究人员在一篇论文中引入了注意力机制,从而将自动驾驶的2D图像转换为鸟瞰图,使得模型的识别准确率提升了15%。该研究在不久前举行的ICRA 2022会议上获得了杰出论文奖。

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

研究论文链接:https://aRxiv.oRg/pdf/2110.00966.pdf

与以往的研究不同,这项研究将BEV的转换视为一个“image-to-World”的转换问题,旨在学习图像中的垂直扫描线(vertical scan lines)与BEV中的极射线(polar rays)之间的对齐关系。因此,这种投影几何对网络而言是隐式的。

在对齐模型中,研究者采用了基于注意力的序列预测结构TRansfoRMeR。通过其注意力机制,研究者明确建模了图像中垂直扫描线与其极性BEV投影之间的配对互动。TRansfoRMeR非常适合图像到BEV的转换问题,因为它可以推理对象、深度与场景光照之间的相互依赖关系,从而实现全局一致的表示。

研究者将基于TRansfoRMeR的对齐模型嵌入到一个端到端学习框架中,该框架以单一图像及其固有矩阵为输入,预测静态和动态类的语义BEV映射。

本研究构建了一个架构,旨在通过对齐模型从单一图像预测语义BEV映射。如下图1所示,该架构包括三个主要部分:标准的CNN骨干,用于提取图像平面上的空间特征;编码器-解码器TRansfoRMeR,将图像平面特征转换为BEV;最后一个分割网络将BEV特征解码为语义地图。

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

具体来说,这项研究的主要贡献包括:

(1) 使用一组1D序列 – 序列的转换从图像生成BEV图;(2) 构建了一个限制性的数据高效TRansfoRMeR网络,具备空间感知能力;(3) 公式与语言领域单调注意力的结合表明,知道图像中某点下方的内容比知道其上方的内容更为重要,尽管两者的使用都会导致最佳性能;(4) 展示了轴向注意力如何通过引入时间意识来提升性能,并在三个大规模数据集上展现了最新的结果。

在实验中,研究者进行了多项评估:将图像到BEV的转换作为nUScenes数据集上的转换问题进行效用评估;在单调注意力中消融回溯方向,评估长序列水平上下文的效用与极位置信息的影响。最后,将该方法与nUScenes、ARgOVeRse和Lyft数据集的SOTA方法进行了比较。

如下表2的第一部分所示,研究者比较了软注意力(双向观察)、图像底部回溯(向下观察)的单调注意力、图像顶部回溯(向上观察)的单调注意力。结果表明,从图像中的一点向下观察比向上观察效果更佳。

沿着局部纹理线索——这与人类在城市环境中判断物体距离的方式一致:我们会利用物体与地平面的交点。结果还表明,两个方向的观察都进一步提升了精度,使深度推理的识别能力更强。

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

关于长序列水平上下文的效用,图像到BEV的转换作为一组1D序列 – 序列转换进行,因此一个问题是,当整个图像被转换成BEV时会发生什么。考虑到生成注意力地图需要的额外计算时间和内存,这种方法的成本高得令人望而却步。然而,通过在图像平面特征上应用水平轴向注意力,可以近似获得使用整个图像的上下文效益。通过图像行的轴向注意力,垂直扫描线中的像素可以具备长距离的水平上下文,随后如之前通过在1D序列间转换来提供长距离的垂直上下文。

如表2中间部分所示,合并长序列水平上下文并未使模型受益,甚至略有不利影响。这表明,首先,每个转换后的射线并不需要输入图像整个宽度的信息;更确切地说,与已经通过前端卷积聚合的上下文相比,长序列上下文没有提供额外的好处。这表明,使用整个图像进行转换并未使模型精度超过基线约束公式;此外,引入水平轴向注意力导致的性能下降表明,训练图像宽度序列的困难,可以看出,使用整个图像作为输入序列将更难以训练。

关于PolaR-agnostic与PolaR-adaptive TRansfoRMeRs的比较,表2的最后部分比较了Po-Ag和Po-Ad的变体。Po-Ag模型未包含极化位置信息,而图像平面的Po-Ad则包含添加到TRansfoRMeR编码器中的极化编码。在BEV平面上,这些信息被加入解码器中。在任一平面上添加极化编码的效果均优于不知情模型,其中动态类的提升最为显著。将其添加到两个平面进一步加强了这一点,但对静态类的影响最大。

在与SOTA方法的对比中,研究者将本文的方法与一些SOTA方法进行了比较。如下表1所示,空间模型的表现优于现有的压缩SOTA方法STA-S,平均相对改善达15%。在较小的动态类上,改善更为显著,公共汽车、卡车、拖车和障碍物的检测准确度均提升了35-45%。

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

下图2中的定性结果进一步支持这一结论,本文模型展示出更大的结构相似性和更佳的形状感。这种差异部分归因于用于压缩的全连接层(FCL):在检测小而远的物体时,图像的大部分内容往往是冗余的上下文。

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

此外,行人等物体往往会被车辆部分遮挡。在这种情况下,全连接层可能会忽略行人,而优先保留车辆的语义。而在这里,注意力机制展现出其优势,因为每个径向深度都可以独立关注图像,从而使得更深的深度能够识别出行人的身体,而之前的深度则只能识别车辆。

下表3中ARgOVeRse数据集的结果展示了类似的模式,本文方法相较于PON的性能提高了30%。

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

如下表4所示,本文方法在nUScenes和Lyft上的表现均优于LSS和FIERY。需要注意的是,在Lyft上进行真实对比是不可能的,因为缺乏规范的训练/验证分割,且无法获取LSS所使用的分割。

ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%

有关更多研究细节,欢迎参考原论文。