互联网资讯 / 人工智能 · 2023年12月31日

openmagic_cn_banner

MaskFeat：超越 MAE 的新自监督视觉预训练方法

Mask-and-pRedict 方法或将成为计算机视觉领域的新趋势。

openmagic_cn_banner

自监督预训练在自然语言处理领域取得了显著成功，其核心在于掩码预测任务。最近，何恺明等人的论文《Masked AutoencodeRs ARe Scalable Vision LeaRneRs》提出了一种有效的自监督学习方案 MAE，尝试将 NLP 领域的掩码预测方法应用于视觉问题。现来自 Facebook AI 研究院的研究团队推出了一种新方法 MaskFeat。

比MAE更强，FAIR新方法MaskFeat用HOG刷新多个SOTA

论文地址：链接

MaskFeat 首先随机掩码输入序列的一部分，然后预测这些掩码区域的特征。通过对五种不同特征类型的研究，发现方向梯度直方图（HOG）是一种优秀的特征描述方法，表现出色的性能和效率。研究还指出，HOG 的局部对比归一化对于实现优良结果至关重要，这与以往 HOG 在视觉识别中的应用一致。

openmagic_cn_banner

该方法能够学习丰富的视觉知识，并推动基于 Transformer 的大规模模型。在无额外模型权重和监督的情况下，MaskFeat 在未标记的视频上进行预训练，使用 MVIT-L 在 Kinetics-400 上实现了 86.7% 的顶级准确率。此外，MaskFeat 还可扩展到图像输入，并在 ImageNet 上取得了有竞争力的结果。

掩码视觉预测任务的目标是修复被掩码的视觉内容。通过建模掩码样本，模型在识别物体部位和运动意义上实现视频理解。例如，要补全下图中的图像，模型必须首先识别对象的可见部分，并理解对象的形态和运动方式，以修复缺失区域。

比MAE更强，FAIR新方法MaskFeat用HOG刷新多个SOTA

该任务的关键组成部分是目标预测。在自然语言处理任务中，掩码语言建模使用词表 Tokenize 语料库作为目标。而在视觉领域，原始视觉信号是连续的、高维的，并没有可用的自然“词表”。

因此，MaskFeat 提出预测被掩码区域的特征，利用从原始完整样本中提取的特征进行监督。目标特征的选择在很大程度上影响预训练模型的属性，研究对特征进行了广泛分析，主要考虑了五种不同类型的目标特征。

比MAE更强，FAIR新方法MaskFeat用HOG刷新多个SOTA

研究者将目标特征分为两组：1) 可直接获得的单阶段目标，包括像素颜色和 HOG；2) 由训练的深度网络提取的两阶段目标。由于预测两阶段目标是通过训练有素的深度网络学习的（类似模型蒸馏），因此教师模型的预训练和推理的额外计算成本是不可避免的。研究主要探讨的五种特征类型包括：

像素颜色
方向梯度直方图（HOG）
离散变分自编码器（dVAE）
深度特征
伪标签

该研究通过分析探讨了这五种特征的优缺点。尽管掩码语言建模最初是在预定义词表上预测分类分布，但 BEIT 中的离散化不需要视觉信息。分析结果表明，连续的无监督特征和图像描述符在预测目标中表现较好，其中前者需要模型蒸馏，后者则不需要额外计算开销。

比MAE更强，FAIR新方法MaskFeat用HOG刷新多个SOTA

此外，研究者发现监督训练的目标特征可能导致较差的结果，这可能与特征中存在的类级特定信息有关，即这种方法对于局部掩码建模过于全局化。综合考虑性能与计算成本之间的权衡，研究最终选择了 HOG 作为 MaskFeat 的默认特征。

方向梯度直方图（HOG）特征是计算机视觉和图像处理中用于物体检测的特征描述方法，最早在 CVPR 2005 的论文中提出。

比MAE更强，FAIR新方法MaskFeat用HOG刷新多个SOTA

HOG 特征提取的过程如下：首先将样本图像分割为若干像素单元，将梯度方向平均划分为多个区间，在每个单元中对所有像素的梯度方向进行直方图统计，从而得到多维特征向量。相邻单元构成一个区间，将区间内的特征向量联结在一起形成完整的特征向量，最后将所有块的特征串联起来，得到完整特征。

该研究在 K400 数据集上将 MaskFeat 与之前的工作进行了比较，结果显示，使用 MaskFeat 的 MVIT-L 在 Kinetics-400 上实现了新的顶级准确率——86.7%。

比MAE更强，FAIR新方法MaskFeat用HOG刷新多个SOTA

为评估该方法在下游任务上的迁移学习性能，研究在 AVA v2.2 上微调了 MVIT-L 模型，实验结果在下表中列出。在 K600 上实现了 88.3% 的顶级准确率，K700 上为 80.4%，均创造了新的记录。

比MAE更强，FAIR新方法MaskFeat用HOG刷新多个SOTA

该研究在 AVA v2.2 上微调了 MVIT-L 模型，并在下表中比较了 MaskFeat 模型与现有方法的平均精度 (MAP)。MaskFeat 在全分辨率测试中达到了前所未有的 38.8 MAP，显著超越了之前所有方法。

比MAE更强，FAIR新方法MaskFeat用HOG刷新多个SOTA

感兴趣的读者可以查阅论文原文以获取更多研究细节。

You may also like...

openmagic_cn_banner