突破AI与机器理解的界限：学习重建和分割3D物体

在人工智能领域，让机器具备像人类一样感知三维物体和环境的能力，是一个至关重要的研究方向。牛津大学计算机科学系的博士生 Bo Yang 在其毕业论文中深入探讨了如何实现三维物体的重建与分割，从而使机器能够理解三维环境，成功突破了人工智能与机器理解之间的障碍。

赋予机器理解三维真实世界的能力，始终是人工智能研究的核心主题之一。由于视觉输入的多样性，例如二维或三维传感器获取的图像或点云，研究者们的一个主要目标是掌握三维环境的几何结构与语义信息。

传统方法通常依赖于手工构建的特征来评估物体或场景的形状和语义，但这些方法在面对新物体和新场景时往往难以适应，也难以有效应对视觉遮挡的问题。

今年九月，Bo Yang 在其论文《learning to ReconstRUCt and SegMent 3D Objects》中对此进行了研究。与传统的做法不同，作者采用了基于深度神经网络的训练方法，利用大规模真实世界的三维数据，学习通用且鲁棒的表示，进而理解场景及其内的物体。

整体而言，本文提出了一系列创新的数据驱动算法，助力机器更好地感知真实世界的三维环境。作者表示：“这项研究无疑推动了人工智能与机器理解的界限。”

该博士论文共143页，分为六个章节。本文对其核心内容进行了简要概述，感兴趣的读者可以查阅原文。

突破AI和机器理解的界限，牛津博士论文学习重建和分割3D物体

论文地址：点击此处阅读

在第二章中，作者回顾了以往在三维物体重建与分割方面的研究，涵盖了单视图和多视图的三维物体重建、三维点云分割、对抗生成网络（GAN）、注意力机制及集合上的深度学习。此外，本章还探讨了该研究在单视图与多视图三维重建及三维点云分割领域相较于现有最优方法的创新之处。

基于单视图的三维物体重建

在第三章，作者提出了一种基于GAN的深度神经架构，旨在从单一深度视图中学习物体的密集三维形状。这个简单而有效的模型被称为3D-RecGAN++，结合了残差连接的3D编码器-解码器和对抗学习，以在单个2.5D视图条件下生成完整的细粒度三维结构。下图展示了该模型的训练和测试流程：

突破AI和机器理解的界限，牛津博士论文学习重建和分割3D物体

接下来，作者通过条件对抗训练来优化编码器-解码器估算的三维形状，其判别器结构示意图如下：

突破AI和机器理解的界限，牛津博士论文学习重建和分割3D物体

最后，作者将3D-RecGAN++与现有最优方法进行了比较，并进行了控制变量研究。大量实验结果表明，该模型在合成和真实数据集上表现优异。

基于多视图的三维物体重建

在第四章，作者提出了一种新的基于注意力机制的神经模块，以从多视图中推断更佳的三维物体形状。这种高效的注意力聚合模块被称为AttSets，其结构如下图所示。相比于现有方法，该模块能够有效地从不同图像中整合有用信息。

突破AI和机器理解的界限，牛津博士论文学习重建和分割3D物体

此外，研究者还引入了两阶段训练算法，以确保在给定一定数量输入图像的情况下，预计的三维形状具有鲁棒性。实验结果表明，该方法能够精准恢复物体的三维形状。

从点云中学习分割三维物体

在第五章，研究者提出了一个新的框架，用于识别大规模三维场景中的各个单独三维物体。与现有研究相比，该框架能够直接且同时检测、分割和识别所有目标实例，而无需复杂的前后处理步骤。研究者在多个大型实际数据集上展示了该方法相较于基线的性能提升。

作者介绍

本文作者Bo Yang现任香港理工大学计算机系助理教授。他本科和硕士学位分别来自北京邮电大学和香港大学，随后在牛津大学计算机科学系攻读博士学位，导师为Niki Trigoni和Andrew Markham教授。

Bo Yang作为第一作者及合著者发表的论文已被《计算机视觉国际期刊》（IJCV）及NeuRIPS和CVPR等学术会议接收，谷歌学术主页显示他共著有22篇论文，总引用次数超过400。

突破AI和机器理解的界限，牛津博士论文学习重建和分割3D物体

论文目录如下：

突破AI和机器理解的界限，牛津博士论文学习重建和分割3D物体

互联网技术 / 互联网资讯 · 2023年11月5日 0