互联网资讯

Transformer在图像语义分割中的性能已超越卷积方法

2023年12月10日 · admin
openmagic ad

在图像语义分割的领域,图像通常被切分为一系列补丁,这可能导致信息的模糊化,因此必须依赖上下文信息以实现准确的分割。

因此,上下文建模在图像语义分割中的表现至关重要。

与传统的卷积网络方法不同,来自法国的研究团队创新性地提出了一种完全基于Transformer的语义分割技术。

用Transformer进行图像语义分割,性能超最先进的卷积方法

这种方法能够有效捕捉图像的全局上下文信息。

用Transformer进行图像语义分割,性能超最先进的卷积方法

值得一提的是,即使是表现优异的全卷积网络(FCN)也面临一些挑战。

而该研究在具有挑战性的ADE20K数据集上,其性能表现已超越了众多先进的卷积方法。

用Transformer进行图像语义分割,性能超最先进的卷积方法

不可否认,Transformer在计算机视觉领域的应用愈发频繁,并且取得了显著成功。

那么,这种优异表现的Transformer语义分割究竟采用了怎样的“配方”呢?

使用的是Vision Transformer(ViT)。

ViT的表现究竟如何呢?

ViT基于纯Transformer架构,将图像切割成多个小块进行输入,在许多图像分类任务中,其表现与顶尖的卷积网络不相上下。

不过,当训练数据集较小时,ViT的性能可能不够理想。

SegMenteR作为一种纯Transformer的编码-解码架构,充分利用了模型每一层所捕获的全局图像上下文。

该方法基于最新的ViT研究成果,将图像分割成块,并映射为一个线性嵌入序列,经过编码器的处理后,再由Mask Transformer进行解码,经过上采样和ARgMax处理,为每个像素分配类别,最终输出像素分割图。

以下是该模型架构的示意图:

用Transformer进行图像语义分割,性能超最先进的卷积方法

在解码阶段,采用了简单的联合处理方法,Mask Transformer能够通过对象嵌入直接实现全景分割。

效果如何呢?

为了验证其性能,研究团队在ADE20K数据集上对不同的Transformer变体进行了比较,研究了不同参数,以全面评估SegMenteR与基于卷积的语义分割方法的表现。

ADE20K数据集包含了具有挑战性的细粒度标签场景,是极具挑战性的语义分割数据集之一。

下表展示了不同正则化方案的比较结果:

研究发现,随机深度方案能够独立提升性能,而Dropout无论是单独使用还是与随机深度结合,都会导致性能下降。

用Transformer进行图像语义分割,性能超最先进的卷积方法

在对不同图像块大小和不同Transformer的性能进行比较时,结果显示:

增大图像块的大小会使图像表示更加粗糙,但处理速度会更快。

减小图像块大小是一种有效的改进方法,无需引入额外参数,但需在较长的序列上计算Attention,这将增加计算时间和内存消耗。

用Transformer进行图像语义分割,性能超最先进的卷积方法

在使用大型Transformer模型或小规模图像块的情况下,SegMenteR表现最佳:

用Transformer进行图像语义分割,性能超最先进的卷积方法

下图展示了SegMenteR的明显优势,其中Seg/16模型在性能与准确性方面表现卓越。

用Transformer进行图像语义分割,性能超最先进的卷积方法

最后,我们来看看SegMenteR与其他先进模型的比较:

在极具挑战性的ADE20K数据集上,SegMenteR在两个指标上均超过了所有先进模型。

用Transformer进行图像语义分割,性能超最先进的卷积方法

用Transformer进行图像语义分割,性能超最先进的卷积方法

在CITYscapes数据集上,SegMenteR的表现与大多数先进模型相当,仅比表现最佳的Panoptic-Deeplab低0.8。

用Transformer进行图像语义分割,性能超最先进的卷积方法

在Pascal context数据集上,SegMenteR的表现同样优异。

用Transformer进行图像语义分割,性能超最先进的卷积方法

关于其余参数的比较,有兴趣的读者可查阅相关论文以了解更多细节。

论文地址: