互联网资讯 / 人工智能 · 2023年12月16日 0

灵活使用归纳偏置的ConViT结合CNN与Transformer优势

在构建新的机器学习模型和训练方法时,AI研究人员通常依赖于一组称为归纳偏置的特定假设。这些假设使得模型能够从有限的数据中提取出更为普遍的解决方案。过去十年的深度学习成功,部分归功于其强大的归纳偏置,尤其是在视觉任务中,基于卷积架构的模型展现出了卓越的学习效率。然而,这种归纳偏置可能会限制模型的性能上限。相比之下,视觉转换器通过灵活的自注意力机制在某些图像分类任务上已超过卷积神经网络,但对数据量的需求显著增加。

为了解决这些问题,研究者们提出了一种新型计算机视觉模型,该模型结合了卷积神经网络(CNN)和其他架构的优点,有效克服了各自的局限性。借助这两种架构的优势,该视觉模型在小数据集上表现优异,同时在大数据集上也能保持相当的性能。

兼具CNNTransformer优势,灵活使用归纳偏置,Facebook提出ConViT
论文地址: GITHub 地址:

CNN在视觉任务上表现出色,主要依赖于两个内置的归纳偏置:局部相关性,即邻近像素之间的相关性;以及权重共享,意味着图像的不同区域应以相同方式处理,无论其绝对位置如何。

与之相对,基于自注意力机制的视觉模型(如Transformer)则最小化了这些归纳偏置。在大数据集上,这些模型的性能已能与CNN相媲美,甚至超越,但在小数据集上的表征学习却面临挑战。

这就形成了一种权衡:CNN的强大归纳偏置使其在数据稀缺时表现优异,但在数据丰富的情况下,这些偏置可能会限制模型的潜力。相对而言,虽然自注意力机制在小数据场景下表现受限,但其灵活性使得在大数据情况下能够超越传统CNN。

因此,所提出的模型通过使用soft卷积归纳偏置进行初始化,使得模型在必要时能够选择性地忽视这些偏置。

兼具CNNTransformer优势,灵活使用归纳偏置,Facebook提出ConViT

soft归纳偏置为模型提供了不受限制的学习能力。尽管hard归纳偏置,如CNN的架构约束,能显著提升样本效率,但在数据量不确定时可能会造成局限。soft归纳偏置的灵活性允许在不需要时被忽视,从而避免模型受到约束。

该模型的工作原理基于对soft卷积归纳偏置的调整,以激励网络进行卷积操作。同时,它允许模型自主决定是否保留卷积结构。为了实现这一目标,研究者引入了一种称为“门控位置自注意力(gated posITional self-attention,GPSA)”的机制,使模型能够学习一个门控参数lambda,以平衡基于内容的自注意力和卷积初始化自注意力。

兼具CNNTransformer优势,灵活使用归纳偏置,Facebook提出ConViT

如图所示,在基础模型上,部分自注意力(SA)层被门控位置自注意力层(GPSA)替代。由于GPSA层涉及位置信息,最终的GPSA层会将类Token与隐藏表征关联起来。

得益于GPSA层,该模型的性能超越了FACEbook去年提出的模型。例如,其性能略高于该模型(对比结果为82.2% vs. 81.8%),而使用的参数量仅为其一半(48M vs. 86M)。在有限数据范围内,soft卷积归纳偏置的作用尤为明显。例如,当仅使用5%的训练数据时,该模型的性能显著优于对照模型(对比结果为47.8% vs. 34.8%)。

兼具CNNTransformer优势,灵活使用归纳偏置,Facebook提出ConViT

此外,在样本效率和参数效率方面也表现优于对照模型。如左图所示,比较了该模型与对照模型的样本效率,两个模型在相同超参数下训练于同一数据子集。图中绿色折线表示相对于对照模型的提升。研究者还在右图中比较了该模型与其他模型的top-1准确率。

除了性能优势外,门控参数提供了一种简单的方法来理解模型在训练后每一层的卷积程度。研究发现,在训练过程中,模型对卷积位置注意力的注意力逐渐减弱。在靠后的层中,门控参数最终趋近于0,表明卷积归纳偏置被忽略。然而,在早期层中,许多注意力头保持较高的门控值,显示网络仍然利用了早期层的卷积归纳偏置来支持训练。

兼具CNNTransformer优势,灵活使用归纳偏置,Facebook提出ConViT

上图展示了模型的注意力图例。参数(lambda)接近1表示使用了卷积初始化,而接近0则表明仅使用了基于内容的注意力。需要注意的是,早期层部分保留了卷积初始化,而后续层完全基于内容。

测试是在上进行的,没有进行知识蒸馏,结果如下:

兼具CNNTransformer优势,灵活使用归纳偏置,Facebook提出ConViT

AI模型的性能在很大程度上受限于训练时使用的数据类型和规模。在学术研究与实际应用中,模型常常面临可用数据的限制。提出的soft归纳偏置,能够在合适时机被忽略,这一创新思路为构建更灵活的人工智能系统提供了新的方向。