智能汽车

自动驾驶2D图像转换为鸟瞰图，模型识别准确率提升15%

2023年11月5日 · admin

在自动驾驶的众多任务中，从俯视角度（鸟瞰图，BEV）观察环境往往能更有效地完成任务。由于许多自动驾驶系统局限于地面视角，俯视图作为一种更简洁的低维表示，更加适合导航，能够清楚地识别相关的障碍物和潜在的危险。在自主驾驶情境下，语义分割生成的BEV地图必须即时估计，以便处理移动对象和一次性访问的场景。

为了从图像推导出BEV地图，需要建立图像元素与其在环境中位置之间的对应关系。过去的研究利用稠密深度图和图像分割地图指导这一转换过程，此外，还有研究扩展了隐式解析深度与语义的方法。有些研究则借助相机的几何先验，但并未明确学习图像元素和BEV平面之间的互动关系。

最近，来自萨里大学的研究人员在一篇论文中引入了注意力机制，从而将自动驾驶的2D图像转换为鸟瞰图，使得模型的识别准确率提升了15%。该研究在不久前举行的ICRA 2022会议上获得了杰出论文奖。

ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%

研究论文链接：https://aRxiv.oRg/pdf/2110.00966.pdf

与以往的研究不同，这项研究将BEV的转换视为一个“image-to-World”的转换问题，旨在学习图像中的垂直扫描线（vertical scan lines）与BEV中的极射线（polar rays）之间的对齐关系。因此，这种投影几何对网络而言是隐式的。

在对齐模型中，研究者采用了基于注意力的序列预测结构TRansfoRMeR。通过其注意力机制，研究者明确建模了图像中垂直扫描线与其极性BEV投影之间的配对互动。TRansfoRMeR非常适合图像到BEV的转换问题，因为它可以推理对象、深度与场景光照之间的相互依赖关系，从而实现全局一致的表示。

研究者将基于TRansfoRMeR的对齐模型嵌入到一个端到端学习框架中，该框架以单一图像及其固有矩阵为输入，预测静态和动态类的语义BEV映射。

本研究构建了一个架构，旨在通过对齐模型从单一图像预测语义BEV映射。如下图1所示，该架构包括三个主要部分：标准的CNN骨干，用于提取图像平面上的空间特征；编码器-解码器TRansfoRMeR，将图像平面特征转换为BEV；最后一个分割网络将BEV特征解码为语义地图。

ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%

具体来说，这项研究的主要贡献包括：

(1) 使用一组1D序列 – 序列的转换从图像生成BEV图；(2) 构建了一个限制性的数据高效TRansfoRMeR网络，具备空间感知能力；(3) 公式与语言领域单调注意力的结合表明，知道图像中某点下方的内容比知道其上方的内容更为重要，尽管两者的使用都会导致最佳性能；(4) 展示了轴向注意力如何通过引入时间意识来提升性能，并在三个大规模数据集上展现了最新的结果。

在实验中，研究者进行了多项评估：将图像到BEV的转换作为nUScenes数据集上的转换问题进行效用评估；在单调注意力中消融回溯方向，评估长序列水平上下文的效用与极位置信息的影响。最后，将该方法与nUScenes、ARgOVeRse和Lyft数据集的SOTA方法进行了比较。

如下表2的第一部分所示，研究者比较了软注意力（双向观察）、图像底部回溯（向下观察）的单调注意力、图像顶部回溯（向上观察）的单调注意力。结果表明，从图像中的一点向下观察比向上观察效果更佳。

沿着局部纹理线索——这与人类在城市环境中判断物体距离的方式一致：我们会利用物体与地平面的交点。结果还表明，两个方向的观察都进一步提升了精度，使深度推理的识别能力更强。

ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%

关于长序列水平上下文的效用，图像到BEV的转换作为一组1D序列 – 序列转换进行，因此一个问题是，当整个图像被转换成BEV时会发生什么。考虑到生成注意力地图需要的额外计算时间和内存，这种方法的成本高得令人望而却步。然而，通过在图像平面特征上应用水平轴向注意力，可以近似获得使用整个图像的上下文效益。通过图像行的轴向注意力，垂直扫描线中的像素可以具备长距离的水平上下文，随后如之前通过在1D序列间转换来提供长距离的垂直上下文。

如表2中间部分所示，合并长序列水平上下文并未使模型受益，甚至略有不利影响。这表明，首先，每个转换后的射线并不需要输入图像整个宽度的信息；更确切地说，与已经通过前端卷积聚合的上下文相比，长序列上下文没有提供额外的好处。这表明，使用整个图像进行转换并未使模型精度超过基线约束公式；此外，引入水平轴向注意力导致的性能下降表明，训练图像宽度序列的困难，可以看出，使用整个图像作为输入序列将更难以训练。

关于PolaR-agnostic与PolaR-adaptive TRansfoRMeRs的比较，表2的最后部分比较了Po-Ag和Po-Ad的变体。Po-Ag模型未包含极化位置信息，而图像平面的Po-Ad则包含添加到TRansfoRMeR编码器中的极化编码。在BEV平面上，这些信息被加入解码器中。在任一平面上添加极化编码的效果均优于不知情模型，其中动态类的提升最为显著。将其添加到两个平面进一步加强了这一点，但对静态类的影响最大。

在与SOTA方法的对比中，研究者将本文的方法与一些SOTA方法进行了比较。如下表1所示，空间模型的表现优于现有的压缩SOTA方法STA-S，平均相对改善达15%。在较小的动态类上，改善更为显著，公共汽车、卡车、拖车和障碍物的检测准确度均提升了35-45%。

ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%

下图2中的定性结果进一步支持这一结论，本文模型展示出更大的结构相似性和更佳的形状感。这种差异部分归因于用于压缩的全连接层（FCL）：在检测小而远的物体时，图像的大部分内容往往是冗余的上下文。

ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%

此外，行人等物体往往会被车辆部分遮挡。在这种情况下，全连接层可能会忽略行人，而优先保留车辆的语义。而在这里，注意力机制展现出其优势，因为每个径向深度都可以独立关注图像，从而使得更深的深度能够识别出行人的身体，而之前的深度则只能识别车辆。

下表3中ARgOVeRse数据集的结果展示了类似的模式，本文方法相较于PON的性能提高了30%。

ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%

如下表4所示，本文方法在nUScenes和Lyft上的表现均优于LSS和FIERY。需要注意的是，在Lyft上进行真实对比是不可能的，因为缺乏规范的训练/验证分割，且无法获取LSS所使用的分割。

ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%

有关更多研究细节，欢迎参考原论文。