在计算机视觉领域,ViT(视觉 Transformer)取得了显著的进展,甚至有潜力取代CNN(卷积神经网络)。然而,与CNN相比,训练ViT通常需要更多的数据,通常是在大型数据集JFT-300M或至少在ImageNet上进行预训练。鲜有研究聚焦于利用少量数据来训练ViT。最近,南京大学的研究团队提出了一种新方法,仅使用2040张图片就成功训练了ViT,达到了96.7%的准确率,证明了在小数据集上训练ViT的可行性。此外,他们在ViT主干下的7个小型数据集上从头开始训练,也取得了SOTA(最先进技术)结果。
更为重要的是,他们还证明了即使在小型数据集上进行预训练,ViT也展现出良好的迁移能力,能够促进大规模数据集的训练。

在这项研究中,作者提出了一种用于自我监督ViT训练的IDMM(实例判别与多裁剪和CutMix)。
首先,我们来看看ViT图像分类网络的基本架构:

接下来,使用全连接层W进行分类,当类别数量等于训练图像总数N时,进行参数化实例判别。

将O输入SoftMax层后,得到概率分布P⁽ⁱ⁾。对于实例判别,其损失函数为:

对于深度聚类,其损失函数为:

可以看出,只需适当设置权重(让wⱼ = ~wₖ),实例判别可以与深度聚类等价。

选择参数化的实例判别还有一个重要原因:简单性和稳定性。训练自监督ViT的一个主要问题是不稳定性,而实例判别(交叉熵)的形式则更为稳定,更易于优化。

吴建鑫教授本科和硕士毕业于南京大学计算机专业,博士毕业于佐治亚理工学院。2013年,他加入南京大学科学与技术系,担任教授和博士生导师,并曾担任ICCV 2015和CVPR 2017的领域主席,目前是Pattern Recognition期刊的编委。
