近年来,深度学习在计算机视觉和机器人领域取得了显著进展,但要让深度模型具备对新场景的泛化能力,需要丰富且高质量的输入数据。
以往在视觉领域,研究者通过网页抓取得到大量数据集,如 ImageNet、Open Images、YouTube-8M、COCO 等,但标注工作始终是劳心劳力的主因,且标注错误会影响对技术能力的评估。相比之下,3D 场景数据的规模和质量普遍不足,真实世界数据采集也极具挑战性;此外,人工标注很难直接提取 3D 几何信息。
通常会使用 Gazebo、Bullet、MuJoCo、Unity 等仿真工具来补充数据,但仿真环境与真实世界仍有差异。即使场景来自真实环境的 3D 扫描,扫描中的离散物体也往往像静态背景一样对输入没有响应。
因此,亟需一个高质量的 3D 对象模型库,能够在物理和视觉建模中提供多样性支持深度学习的训练与评估。
为此,研究团队提出了一个覆盖超过 1000 个家用物品的 3D 扫描数据集,该数据集能够被 IgnITion Gazebo、Bullet 等仿真器以及可读取 SDF 模型格式的工具所使用。
在相关论文中,作者对数据集的采集、管理与扩展等方面进行了系统介绍,论文链接为 https://arxiv.org/pdf/2204.11918.pdf 供参考。
通过不完全统计,该数据集已在计算机视觉、计算机图形学、机器人操作与导航以及 3D 形状处理等领域的多篇论文中得到应用,覆盖多项研究任务的需求。
本研究的核心贡献包括:提出了包含 1030 个扫描对象的数据集;设计了 3D 扫描管线;实现了 3D 扫描的管理与发布流程;以及评估数据集在研究领域中的影响力。
数据集的起源可追溯到早期的云端机器人计划,目标是在家用物品的高保真 3D 模型基础上,使机器人能够在实际环境中识别和抓取对象。
除了物体识别和抓取之外,3D 模型还能用于物理场景的构建和最终用户应用的可视化,因此提出了在降低成本的前提下,将大量家用物品的 3D 扫描数据引入到平台的工程方案。
该工作涵盖了物体获取、创新的 3D 扫描硬件、高效的扫描软件、快速渲染质量保障、网络与移动端接入,以及人机交互的研究。
在数据收集完成后,研究团队构建了一个管线,使数据能够以多种格式被使用和部署。
即便聚焦于家用物品领域,3D 扫描也面临独特挑战,包括高效的物理扫描设置、目标照明、相机稳定性、扫描仪性能、纹理与材质的呈现,以及对反射、透明等材料的处理。
专用的 3D 扫描硬件往往成本较高且劳动密集,因此需要更易维护、可靠的工具来实现大规模扫描。
为此,研究团队设计了自研的扫描硬件与软件,能够在约 10 分钟内完成一次物体扫描并生成高分辨率模型。物理外壳通过结构光成像、两台机器视觉相机和一台投影仪进行灯光控制和几何捕获,而高分辨率纹理则由单反相机捕捉,形成产品友好的视觉效果。
在第一年工作结束时,团队实现了每周超过 400 次扫描,积累了约 10 万份 360 度旋转照片和 1 万份完整 3D 扫描对象。
图示与校准过程可帮助理解扫描的精度与质量控制,包括通过校准模式实现 2D 管线与相机的对齐、使用受控投影以辅助 3D 扫描、以及以亚像素级别定位与提取完整几何形态的能力。
对扫描对象的质量控制也在持续推进,确保大多数对象得到高质量的封闭网格(Mesh),并尽量减少异常变形。
为方便在仿真环境中的使用,原始扫描模型会经过一系列处理步骤:过滤无效对象、命名与验证网格、计算物理属性、构造碰撞体积、缩放模型、生成 SDF 模型、创建缩略图并打包分发。这一自动化管线可帮助快速生成大量高质量模型,无需逐一人工处理。
与人工建模相比,这些扫描得到的模型更贴近真实世界,降低了将学习从仿真转移到现实世界的难度。
该扫描仪的平板玻璃工作台能从多侧捕获模型信息,覆盖比一般扫描仪更宽的范围,且环境对象通常不包含底座等遮挡区域之间的差异。
由于该扫描仪基于投影图案重建表面,生成的网格具有高保真度,边缘和轮廓更精准。相比之下,RGB-D 数据往往在轮廓处出现不连续或噪点现象。
图示:图示内容请参见原文中的对应图示。
该数据集也存在一定局限性:扫描仪的工作区域约为 50 厘米,因而不涵盖体积较大的对象(如椅子、汽车、飞机等)。同时,扫描分辨率有限,极小对象的保真度受限。此外,生成的纹理多为漫反射材质,难以忠实呈现高镜面或透明材料的效果。
更多细节请查阅原论文。
