Mask-and-pRedict 方法或将成为计算机视觉领域的新趋势。
自监督预训练在自然语言处理领域取得了显著成功,其核心在于掩码预测任务。最近,何恺明等人的论文《Masked AutoencodeRs ARe Scalable Vision LeaRneRs》提出了一种有效的自监督学习方案 MAE,尝试将 NLP 领域的掩码预测方法应用于视觉问题。现来自 Facebook AI 研究院的研究团队推出了一种新方法 MaskFeat。

论文地址:链接
MaskFeat 首先随机掩码输入序列的一部分,然后预测这些掩码区域的特征。通过对五种不同特征类型的研究,发现方向梯度直方图(HOG)是一种优秀的特征描述方法,表现出色的性能和效率。研究还指出,HOG 的局部对比归一化对于实现优良结果至关重要,这与以往 HOG 在视觉识别中的应用一致。
该方法能够学习丰富的视觉知识,并推动基于 Transformer 的大规模模型。在无额外模型权重和监督的情况下,MaskFeat 在未标记的视频上进行预训练,使用 MVIT-L 在 Kinetics-400 上实现了 86.7% 的顶级准确率。此外,MaskFeat 还可扩展到图像输入,并在 ImageNet 上取得了有竞争力的结果。
掩码视觉预测任务的目标是修复被掩码的视觉内容。通过建模掩码样本,模型在识别物体部位和运动意义上实现视频理解。例如,要补全下图中的图像,模型必须首先识别对象的可见部分,并理解对象的形态和运动方式,以修复缺失区域。

该任务的关键组成部分是目标预测。在自然语言处理任务中,掩码语言建模使用词表 Tokenize 语料库作为目标。而在视觉领域,原始视觉信号是连续的、高维的,并没有可用的自然“词表”。
因此,MaskFeat 提出预测被掩码区域的特征,利用从原始完整样本中提取的特征进行监督。目标特征的选择在很大程度上影响预训练模型的属性,研究对特征进行了广泛分析,主要考虑了五种不同类型的目标特征。

研究者将目标特征分为两组:1) 可直接获得的单阶段目标,包括像素颜色和 HOG;2) 由训练的深度网络提取的两阶段目标。由于预测两阶段目标是通过训练有素的深度网络学习的(类似模型蒸馏),因此教师模型的预训练和推理的额外计算成本是不可避免的。研究主要探讨的五种特征类型包括:
- 像素颜色
- 方向梯度直方图(HOG)
- 离散变分自编码器(dVAE)
- 深度特征
- 伪标签
该研究通过分析探讨了这五种特征的优缺点。尽管掩码语言建模最初是在预定义词表上预测分类分布,但 BEIT 中的离散化不需要视觉信息。分析结果表明,连续的无监督特征和图像描述符在预测目标中表现较好,其中前者需要模型蒸馏,后者则不需要额外计算开销。

此外,研究者发现监督训练的目标特征可能导致较差的结果,这可能与特征中存在的类级特定信息有关,即这种方法对于局部掩码建模过于全局化。综合考虑性能与计算成本之间的权衡,研究最终选择了 HOG 作为 MaskFeat 的默认特征。
方向梯度直方图(HOG)特征是计算机视觉和图像处理中用于物体检测的特征描述方法,最早在 CVPR 2005 的论文中提出。

HOG 特征提取的过程如下:首先将样本图像分割为若干像素单元,将梯度方向平均划分为多个区间,在每个单元中对所有像素的梯度方向进行直方图统计,从而得到多维特征向量。相邻单元构成一个区间,将区间内的特征向量联结在一起形成完整的特征向量,最后将所有块的特征串联起来,得到完整特征。
该研究在 K400 数据集上将 MaskFeat 与之前的工作进行了比较,结果显示,使用 MaskFeat 的 MVIT-L 在 Kinetics-400 上实现了新的顶级准确率——86.7%。

为评估该方法在下游任务上的迁移学习性能,研究在 AVA v2.2 上微调了 MVIT-L 模型,实验结果在下表中列出。在 K600 上实现了 88.3% 的顶级准确率,K700 上为 80.4%,均创造了新的记录。

该研究在 AVA v2.2 上微调了 MVIT-L 模型,并在下表中比较了 MaskFeat 模型与现有方法的平均精度 (MAP)。MaskFeat 在全分辨率测试中达到了前所未有的 38.8 MAP,显著超越了之前所有方法。

感兴趣的读者可以查阅论文原文以获取更多研究细节。
