互联网技术 / 互联网资讯 · 2023年12月31日

新技术使图像分类接近SOTA且不使用卷积注意力机制

新技术使图像分类接近SOTA且不使用卷积注意力机制

谷歌大脑的视觉 Transformer 团队(VIT)推出了一种颇具复古风格的方案。

该团队并未使用卷积神经网络(CNN)或 Transformer,而是仅依赖最初用于视觉任务的多层感知机(MLP)结构,便实现了接近当前最优的性能,在 ImageNet 图像分类任务上也取得了 87.94% 的准确率。

谷歌大脑最新操作玩“复古”:不用卷积注意力,图像分类接近SOTA

该架构被命名为 MLP-Mixer,整合了两类不同的 MLP 层,可视作一种特殊的卷积网络:通过 1×1 卷积进行通道混合(按位操作),同时利用具备全局感受野且参数共享的单通道深度卷积实现跨位混合。

在 JFT-300M 数据集上进行预训练并在 224 分辨率下微调的 MixeR-H/14 版本,达到 86.32% 的准确率,比当前 SOTA 模型 VIT-H/14 仅低约 0.3%,但推理速度约为后者的 2.2 倍。