互联网资讯

Transformer在图像语义分割中的性能已超越卷积方法

2023年12月10日 · admin

在图像语义分割的领域，图像通常被切分为一系列补丁，这可能导致信息的模糊化，因此必须依赖上下文信息以实现准确的分割。

因此，上下文建模在图像语义分割中的表现至关重要。

与传统的卷积网络方法不同，来自法国的研究团队创新性地提出了一种完全基于Transformer的语义分割技术。

用Transformer进行图像语义分割，性能超最先进的卷积方法

这种方法能够有效捕捉图像的全局上下文信息。

用Transformer进行图像语义分割，性能超最先进的卷积方法

值得一提的是，即使是表现优异的全卷积网络（FCN）也面临一些挑战。

而该研究在具有挑战性的ADE20K数据集上，其性能表现已超越了众多先进的卷积方法。

用Transformer进行图像语义分割，性能超最先进的卷积方法

不可否认，Transformer在计算机视觉领域的应用愈发频繁，并且取得了显著成功。

那么，这种优异表现的Transformer语义分割究竟采用了怎样的“配方”呢？

使用的是Vision Transformer（ViT）。

ViT的表现究竟如何呢？

ViT基于纯Transformer架构，将图像切割成多个小块进行输入，在许多图像分类任务中，其表现与顶尖的卷积网络不相上下。

不过，当训练数据集较小时，ViT的性能可能不够理想。

SegMenteR作为一种纯Transformer的编码-解码架构，充分利用了模型每一层所捕获的全局图像上下文。

该方法基于最新的ViT研究成果，将图像分割成块，并映射为一个线性嵌入序列，经过编码器的处理后，再由Mask Transformer进行解码，经过上采样和ARgMax处理，为每个像素分配类别，最终输出像素分割图。

以下是该模型架构的示意图：

用Transformer进行图像语义分割，性能超最先进的卷积方法

在解码阶段，采用了简单的联合处理方法，Mask Transformer能够通过对象嵌入直接实现全景分割。

效果如何呢？

为了验证其性能，研究团队在ADE20K数据集上对不同的Transformer变体进行了比较，研究了不同参数，以全面评估SegMenteR与基于卷积的语义分割方法的表现。

ADE20K数据集包含了具有挑战性的细粒度标签场景，是极具挑战性的语义分割数据集之一。

下表展示了不同正则化方案的比较结果：

研究发现，随机深度方案能够独立提升性能，而Dropout无论是单独使用还是与随机深度结合，都会导致性能下降。

用Transformer进行图像语义分割，性能超最先进的卷积方法

在对不同图像块大小和不同Transformer的性能进行比较时，结果显示：

增大图像块的大小会使图像表示更加粗糙，但处理速度会更快。

减小图像块大小是一种有效的改进方法，无需引入额外参数，但需在较长的序列上计算Attention，这将增加计算时间和内存消耗。

用Transformer进行图像语义分割，性能超最先进的卷积方法

在使用大型Transformer模型或小规模图像块的情况下，SegMenteR表现最佳：

用Transformer进行图像语义分割，性能超最先进的卷积方法

下图展示了SegMenteR的明显优势，其中Seg/16模型在性能与准确性方面表现卓越。

用Transformer进行图像语义分割，性能超最先进的卷积方法

最后，我们来看看SegMenteR与其他先进模型的比较：

在极具挑战性的ADE20K数据集上，SegMenteR在两个指标上均超过了所有先进模型。

用Transformer进行图像语义分割，性能超最先进的卷积方法

在CITYscapes数据集上，SegMenteR的表现与大多数先进模型相当，仅比表现最佳的Panoptic-Deeplab低0.8。

用Transformer进行图像语义分割，性能超最先进的卷积方法

在Pascal context数据集上，SegMenteR的表现同样优异。

用Transformer进行图像语义分割，性能超最先进的卷积方法

关于其余参数的比较，有兴趣的读者可查阅相关论文以了解更多细节。

论文地址：