互联网资讯 / 人工智能 · 2024年1月1日

openmagic_cn_banner

基于2040张图片训练的ViT取得96.7%准确率

在计算机视觉领域，ViT（视觉 Transformer）取得了显著的进展，甚至有潜力取代CNN（卷积神经网络）。然而，与CNN相比，训练ViT通常需要更多的数据，通常是在大型数据集JFT-300M或至少在ImageNet上进行预训练。鲜有研究聚焦于利用少量数据来训练ViT。最近，南京大学的研究团队提出了一种新方法，仅使用2040张图片就成功训练了ViT，达到了96.7%的准确率，证明了在小数据集上训练ViT的可行性。此外，他们在ViT主干下的7个小型数据集上从头开始训练，也取得了SOTA（最先进技术）结果。

openmagic_cn_banner

更为重要的是，他们还证明了即使在小型数据集上进行预训练，ViT也展现出良好的迁移能力，能够促进大规模数据集的训练。

基于2040张图片训练的ViT取得96.7%准确率

在这项研究中，作者提出了一种用于自我监督ViT训练的IDMM（实例判别与多裁剪和CutMix）。

首先，我们来看看ViT图像分类网络的基本架构：

openmagic_cn_banner

基于2040张图片训练的ViT取得96.7%准确率

接下来，使用全连接层W进行分类，当类别数量等于训练图像总数N时，进行参数化实例判别。

基于2040张图片训练的ViT取得96.7%准确率

将O输入SoftMax层后，得到概率分布P⁽ⁱ⁾。对于实例判别，其损失函数为：

基于2040张图片训练的ViT取得96.7%准确率

对于深度聚类，其损失函数为：

基于2040张图片训练的ViT取得96.7%准确率

可以看出，只需适当设置权重（让wⱼ = ~wₖ），实例判别可以与深度聚类等价。

基于2040张图片训练的ViT取得96.7%准确率

选择参数化的实例判别还有一个重要原因：简单性和稳定性。训练自监督ViT的一个主要问题是不稳定性，而实例判别（交叉熵）的形式则更为稳定，更易于优化。

基于2040张图片训练的ViT取得96.7%准确率

吴建鑫教授本科和硕士毕业于南京大学计算机专业，博士毕业于佐治亚理工学院。2013年，他加入南京大学科学与技术系，担任教授和博士生导师，并曾担任ICCV 2015和CVPR 2017的领域主席，目前是Pattern Recognition期刊的编委。

You may also like...

openmagic_cn_banner