Transformer在图像语义分割中的性能已超越卷积方法
在图像语义分割的领域,图像通常被切分为一系列补丁,这可能导致信息的模糊化,因此必须依赖上下文信息以实现准确的分割。
因此,上下文建模在图像语义分割中的表现至关重要。
与传统的卷积网络方法不同,来自法国的研究团队创新性地提出了一种完全基于Transformer的语义分割技术。

这种方法能够有效捕捉图像的全局上下文信息。

值得一提的是,即使是表现优异的全卷积网络(FCN)也面临一些挑战。
而该研究在具有挑战性的ADE20K数据集上,其性能表现已超越了众多先进的卷积方法。

不可否认,Transformer在计算机视觉领域的应用愈发频繁,并且取得了显著成功。
那么,这种优异表现的Transformer语义分割究竟采用了怎样的“配方”呢?
使用的是Vision Transformer(ViT)。
ViT的表现究竟如何呢?
ViT基于纯Transformer架构,将图像切割成多个小块进行输入,在许多图像分类任务中,其表现与顶尖的卷积网络不相上下。
不过,当训练数据集较小时,ViT的性能可能不够理想。
SegMenteR作为一种纯Transformer的编码-解码架构,充分利用了模型每一层所捕获的全局图像上下文。
该方法基于最新的ViT研究成果,将图像分割成块,并映射为一个线性嵌入序列,经过编码器的处理后,再由Mask Transformer进行解码,经过上采样和ARgMax处理,为每个像素分配类别,最终输出像素分割图。
以下是该模型架构的示意图:

在解码阶段,采用了简单的联合处理方法,Mask Transformer能够通过对象嵌入直接实现全景分割。
效果如何呢?
为了验证其性能,研究团队在ADE20K数据集上对不同的Transformer变体进行了比较,研究了不同参数,以全面评估SegMenteR与基于卷积的语义分割方法的表现。
ADE20K数据集包含了具有挑战性的细粒度标签场景,是极具挑战性的语义分割数据集之一。
下表展示了不同正则化方案的比较结果:
研究发现,随机深度方案能够独立提升性能,而Dropout无论是单独使用还是与随机深度结合,都会导致性能下降。

在对不同图像块大小和不同Transformer的性能进行比较时,结果显示:
增大图像块的大小会使图像表示更加粗糙,但处理速度会更快。
减小图像块大小是一种有效的改进方法,无需引入额外参数,但需在较长的序列上计算Attention,这将增加计算时间和内存消耗。

在使用大型Transformer模型或小规模图像块的情况下,SegMenteR表现最佳:

下图展示了SegMenteR的明显优势,其中Seg/16模型在性能与准确性方面表现卓越。

最后,我们来看看SegMenteR与其他先进模型的比较:
在极具挑战性的ADE20K数据集上,SegMenteR在两个指标上均超过了所有先进模型。


在CITYscapes数据集上,SegMenteR的表现与大多数先进模型相当,仅比表现最佳的Panoptic-Deeplab低0.8。

在Pascal context数据集上,SegMenteR的表现同样优异。

关于其余参数的比较,有兴趣的读者可查阅相关论文以了解更多细节。
论文地址: