无论是一只全新品种或是其他颜色的狗,我们都能轻松辨认出它。
人类天生具备对周围变化的敏锐感知能力。
然而,人工智能系统则不尽如人意。尽管它们在许多任务上超越人类,但在一些简单的识别上却常常感到困惑。例如,当我们让金毛犬换个角度——正面、侧面、后面,人工智能可能会面临挑战。
深度学习模型擅长于解析像素与标签之间的统计关系,但在面对许多自然变化时,正确识别目标却显得异常困难。
这是一辆扫雪车,还是一辆翻倒的校车?
上图根据M.A. AlcoRn等人的研究”StRike(wITh)a pose: NeuRal netwoRks aRe easily fooled by stRange poses of FAMiliaR objects”绘制,展示了一个深度神经网络错误地将一辆公共汽车分类为扫雪车。
人类能迅速做出判断,但颜色、大小和透视等因素的复杂性使得人工智能模型的预测变得更加困难。
FACEbook AI一直在积极研究如何更有效地捕捉自然变化。传统的方法在这一领域存在显著的局限性,特别是在解纠缠(disentanglement)方面。我们最近提出了一种新的概念——等变化移位算子(equivariant shift operator),这是一种替代解的概念证明,旨在帮助模型理解物体可能发生的变化,通过模拟最常见的变换。
当前,FACEbook AI在这方面的研究主要集中于理论层面,但对于深度学习模型,尤其是在计算机视觉领域,这具有巨大的潜力:提高可解释性和准确性,甚至在小数据集上也能获得更好的性能,进而提升泛化能力。FACEbook AI希望这些贡献能够推动计算机视觉的发展,更深入地理解视觉世界的复杂性。
现行方法的局限性
目前的解纠缠方法试图通过将模型中的每个因子编码到模型内部表示的不同子空间中,从而学习对象的基本变换。
例如,解纠缠可能会将狗的图像数据集分解为姿态、颜色和品种等子空间。
这种方法在识别刚性数据集的变化因素方面表现良好,如单一的MNIST数字或特定的对象(例如椅子),但在多个类别中,解纠缠的表现却不尽如人意。
想象一下多个旋转的形状,比如三角形和正方形。解纠缠模型试图将物体的形状和方向这两个变化因素分离成两个独立的因素。
下图演示了传统的解纠缠在多个形状的数据集中无法有效识别旋转的现象。我们期望高亮显示的形状会旋转,但由于解纠缠的失败,形状仍然保持固定。
解纠缠方法还存在拓扑缺陷,这是在众多变换中出现的另一个问题。拓扑缺陷违反了连续性——这是深度学习模型的基本特性。缺乏连续性,使得深度学习模型难以有效学习数据中的模式。
想象一下正三角形的旋转。旋转120度的正三角形与原三角形无法区分,导致在方向空间中表现相同。然而,通过在三角形的一个角上添加一个微小的点,表示就变得可辨别,这样做违反了连续性原则。附近的图像被映射到相距较远的图像。FACEbook AI的研究还显示,拓扑缺陷在非对称形状及其他常见变换中均会出现。
利用等变化算子揭示变化因子
群论这一数学分支为我们提供了应用等变化算子的丰富知识。它表明,理解变化因素的一种直观方法是将其视为一组转换。例如,三角形的旋转有一组结构:90度旋转和30度旋转结合起来可以产生120度旋转。
FACEbook AI借助这些理念,识别了传统解纠缠的缺点,并确定了如何训练等变化算子来实现解纠缠。我们提出了一种称为移位算子的等变化算子。这是一个矩阵,其块体模拟了常见变换的组结构,如旋转、平移和重缩放。接着,我们在原始图像及其变换上训练一个人工智能模型。
由此发现,即使在包含多个类别的数据集中,移位算子也能成功学习变换——这是传统解纠缠常常失败的领域。
