互联网技术 / 互联网资讯 · 2024年3月24日

4D-Net:点云与RGB图像融合的远距离目标检测

概述

现今的自动驾驶与机器人系统通过激光雷达(LiDAR)与摄像头等传感器获取场景信息。LiDAR 以激光点云提供目标的三维坐标,但存在点云稀疏、覆盖范围有限等问题,远处目标可能只有少量点或无法被检测到;摄像头输入具有高分辨率,便于语义理解与目标检测,但在距离测量方面不如激光雷达准确。将两类传感器的数据结合起来,能够同时受益于点云的深度信息与图像的分辨率特征。

在数据采集层面,传感器的观测通常以时间序列形式记录,形成所谓的“4D 世界”表示。如何高效地将这两种传感信息进行对齐与融合,是当前研究的挑战之一,因为两种输入之间的对应关系并非总是直接且稳定。

4D-Net 的核心思想

本研究提出一种能够处理 4D 数据(3D 点云与图像帧)的神经网络框架,首次实现了点云与 RGB 图像的联合学习与端到端的目标检测。该网络还引入了动态连接学习方法,用以在不同层次特征之间自动选择合适的连接方式,从而在保持计算效率的前提下提升检测性能。

该方法通过学习性线性层对注意力权重进行加权,从而在多层特征中灵活组合,突出对当前任务最有用的特征。研究显示,结合运动线索与密集图像信息可以显著提升对远距离目标的检测能力,同时保持较高的推理速度。

将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,检测远距离目标

论文与实现概要:将 3D 点云与 RGB 图像在时间维度上进行同步处理,并探索如何在不同传感输入之间建立有效的连接与信息传递,以提升 3D 边框检测的准确性与鲁棒性。

4D-Net 的技术要点包括在动态连接学习中的可微架构搜索,以及在多传感输入场景下对不同尺度特征的有效整合。通过这种设计,网络能在不同距离的目标上都获得良好表现,特别是在远距离场景中展现出优势。

将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,检测远距离目标

输入与结构方面,4D-Net 采用轻量级的架构策略,使得点云流与图像流的融合在实时性要求下仍具备竞争力。研究还探索了高分辨率单图像流与低分辨率多帧视频流的组合,提出四流架构以进一步提升性能。

将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,检测远距离目标

连接学习示意图:通过可学习的线性层对不同层的特征进行加权整合,从而得到更优的跨模态特征表示。

实验与结果

在公开的基准数据集上进行评估时,4D-Net 能在 164 毫秒内处理包含 32 个点云和 16 帧 RGB 图像的输入,较之仅使用单一传感器或简单融合的方法,检测性能与效率均有明显提升。相比于需要更长推理时间的基线方法,4D-Net 在准确性与速度之间实现了更好的平衡。

将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,检测远距离目标

将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,检测远距离目标

3D 场景可视化结果显示,框选的车辆以不同颜色标示,部分框为可视化目的的叠加。

远距离目标检测的优势在于:RGB 提供的高分辨率与点云的深度信息相结合,能够在远处仍保持对目标的可检测性,克服单独传感模式的局限性。通过将图像特征在网络的早期就与点云信息对齐,远距离目标的细节特征得以更好地捕捉。

消融研究表明:至少保留一个传感输入的实时性,将显著提升检测准确性;而同时考虑两种传感输入,能达到最佳性能。

将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,检测远距离目标

在不同输入设置下的 3D 目标检测性能对比:点云、时间点云、RGB 图像以及时间 RGB 图像的组合。

多流架构与未来方向

由于动态连接学习机制具备普适性,4D-Net 也被扩展为多流架构。除了点云与 RGB 视频流之外,研究还探索了高分辨率单图像流配合低分辨率点云流的混合输入,以在保持实时性的前提下提升检测效果。下图展示的多流(四流)架构在某些场景下超越了两流系统的性能。

将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,检测远距离目标

多流 4D-Net 架构结合了一个实时的点云流与若干图像流(高分辨率单图像流、中等分辨率图像流和更低分辨率的视频流),通过学习输入流之间的连接关系,实现更高效的目标检测。

总结而言,4D-Net 提供了一种高效且有效的远距离目标检测方案,充分利用了点云与图像的互补信息,且具备在未来的多模态 4D 数据研究中作为基线的潜力。