互联网资讯

自监督视觉预训练的最新突破：刷新多项SOTA并超越 MAE

2024年4月10日 · admin

自监督视觉预训练正在快速演化，最新突破不断刷新多项 SOTA，并在某些场景中超越了 MAE 等经典方法。本文聚焦最新的思路、机制与应用趋势，帮助读者把握 AI/视觉模型预训练的核心方向与趋势。

openmagic_cn_banner

前段时间，何恺明等人的研究再次点燃了人们对视觉大模型预训练的热情。通过简单而高效的掩蔽自编码思路（MAE），在大模型架构上取得了理想的性能表现，展示了 Transformer 向 CV 大模型扩展的强大潜力。这一线索引发了更多研究者对自监督预训练的深耕与迭代。

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

那么，MAE 能否成为视觉大模型预训练的终点？显然还不是。越来越多的团队在探索替代与提升路径，包括字节跳动、约翰霍普金斯大学等机构的联合工作，推动视觉领域自监督训练走向更高的语义理解能力与更强的迁移泛化。

在最新的工作中，研究者提出了用于视觉任务的大规模预训练方法 iBOT，通过对图像引入在线 TokenizeR 进行 BERT 式预训练，从而获得更统一且广泛的特征表达能力。该方法在十几类任务与数据集上刷新了 SOTA，并在部分指标上实现对 MAE 的超越。

openmagic_cn_banner

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

论文要点在于：将自监督的掩蔽建模与动态、在线的 TokenizeR 结合，使模型能够在保持高语义表达的同时，学习到更连续的特征分布。该设计的核心在于 TokenizeR 的两大属性设定：一是具备完整表征连续图像内容的能力；二是具备高层语义表达，类似 NLP 领域的分词语义。

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

方法论背景：NLP 领域的 MLM（Masked Language Model）训练目标一直是核心，BERT 等方法通过遮蔽文本部分并预测其语义信息，促使模型学习到更强的泛化能力。将这一范式迁移到视觉领域，关键在于如何设计能提取图像 patch 高层语义的 TokenizeR，避免陷入对底层细节的冗余编码。

在 iBOT 的设计中，研究者提出将经 Mask 的图像序列输入 Transformer 后的预测过程建模为知识蒸馏过程，借助在线 TokenizeR 监督 MIM（Masked Image Modeling），实现语义与像素级重建的双向协同。为此，TokenizeR 的参数通过目标网络的历史参数以滑动平均方式获得，在线学习与目标网络保持同构结构，以便对同一张图片的不同视野进行有效对齐。

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

这一思想在自蒸馏框架中已得到验证，如 DINO 等方法所采用的在线教师/学生设定，为在类别级标签和局部特征层面提供稳定的高语义监督提供了参考。iBOT 将这一自蒸馏机制扩展到两大目标上：在 [CLS] 标签上的自蒸馏确保在线 TokenizeR 学习到高层语义特征并迁移至 MIM；在 patch 标签上的自蒸馏将在线 TokenizeR 表征的局部分布作为目标监督，用于重建掩蔽 patch，从而显式建模了图像内部结构。

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

预训练框架采用孪生网络结构，在线 TokenizeR 可以视为教师分支的一部分。教师、学生两分支具备对称的 backbone 和 projection 网络，且对多种视觉 Transformer 体系（如 Vision Transformers、Swin Transformers 等）均有良好兼容性。研究者还发现共享 [CLS] 与 patch 标签的 Projection 网络能显著提升下游任务的迁移效果，并采用随机 MIM 机制提升鲁棒性：对每张图片以 0.5 的概率跳过 Mask，以 0.1–0.5 的区间比例随机进行 Mask。

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

在实验设计上，iBOT 通过多种视觉骨干网进行验证，并在下游任务上给出全面对比。大量结果表明，配合不同的骨干网络，iBOT 在线性分类、微调以及无监督、半监督设置下均展现出强劲的迁移能力与鲁棒性，凸显了 MIM 与在线 TokenizeR 自蒸馏结合的潜力。

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

从线性评估的角度来看，iBOT 在 VIT-B/16、Swin-T/14 等骨干上的线性分类准确度普遍领先于 DINO、EsVIT、BEIT 等方案，且在使用更大规模预训练数据时表现更为突出。微调结果显示，以 ImageNet-1K 作为预训练数据的 VIT-B/16 版本，iBOT 的准确率达到较高水平；使用更大规模数据与更强骨干，可进一步提升性能。

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

在半监督与无监督分类任务上，iBOT 显著优于未采用 MIM 的对照方法。实验还显示，当微调数据较少时，iBOT 的优势尤为明显，这为数据受限场景提供了重要参考。此外，在无监督基准上，iBOT 达到了较高的准确率与较高的 NMI 值，体现其在无标注条件下对局部语义的良好捕捉能力。

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

在密集视觉任务上的迁移能力也显著强于 MAE 等方法。通过使用 ViT-B/16 结合级联目标检测框架（如 Cascade Mask R-CNN）或语义分割框架，iBOT 在目标检测与分割任务中实现了领先水平的 AP 与 MAP，显示了对图片内部结构建模的有效性。

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

与之相关的可解释性分析也给出直观洞见：对大量验证集的 patch 级概率分布可视化显示，iBOT 能更好地聚焦局部语义模式，如局部的光源、纹理和轮廓等，这些局部语义在遮挡、模糊等干扰场景中对识别性能具有正向贡献。此类可视化与鲁棒性分析共同印证了 MIM 目标带来的结构化学习优势。

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

方法对比与趋势解读

近来，Mask 级自编码思路在视觉领域成为主流竞争方向之一。与早期 Bézier 之类的离散化 TokenizeR 思路相比，BeIT 等方案使用预训练好的 Tokenizer 进行离散化标签，替代像素级回归；而 MAE、MPP 等方法通常将 TokenizeR 视为恒等映射，直接在像素空间进行回归。iBOT 则在此基础上进一步融合了在线 TokenizeR 与自蒸馏的协同学习，强调对全局与局部语义的统一学习与迁移能力，提升了对复杂场景的适应性。

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

应用趋势与展望：AI/视觉模型预训练正在向更高层次的语义理解、跨任务迁移与数据高效利用方向发展。自蒸馏、在线 TokenizeR、MIM 目标的结合，将成为未来视觉大模型预训练的重要设计范式之一。随着算力的提升与大规模数据的可访问性增加，更多可解释性强、鲁棒性高、对密集任务友好的预训练方法将得到广泛关注与落地应用。