互联网资讯 / 人工智能 · 2023年12月16日 0

推出ViTGAN,在计算机视觉领域展开对决

卷积神经网络(CNN)凭借其强大的卷积和池化功能,在计算机视觉领域占据了主导地位。

然而,随着Transformer架构的崛起,特别是视觉Transformer(ViT),在图像和视频识别任务中开始挑战CNN的优势。

Dosovitskiy及其团队的研究表明,可以将图像视为一系列类似于自然语言中单词的标记(Token),在ImageNet基准测试中以较少的FLOP实现了可与CNN相媲美的分类精度。

CV圈对决:谷歌提出ViTGAN,用视觉Transformer训练GAN

尽管ViT及其变体仍处于起步阶段,但它们在图像识别方面展现出的竞争力以及较少的视觉特定归纳偏差,引发了一个问题:ViT能否拓展到图像生成领域?

由谷歌和加州大学圣地亚哥分校的研究团队对此进行了深入探讨,并发表了论文《VITGAN:用视觉Transformer训练生成对抗网络(GAN)》。

CV圈对决:谷歌提出ViTGAN,用视觉Transformer训练GAN

该研究探究了ViT是否能够在不依赖卷积或池化的情况下,执行图像生成任务,并与传统基于CNN的GAN相比,达到同样的质量。

研究团队将ViT架构融入到GAN中,发现现有的GAN正则化方法与自我注意机制的结合效果不佳,导致训练过程中的不稳定性。

因此,团队提出了新的正则化技术以训练包含ViT的GAN,并获得以下研究成果:

VITGAN模型在性能上显著优于以Transformer为基础的GAN模型,其表现与基于CNN的GAN(如style-GAN2)相当,且无需使用卷积或池化。

VITGAN模型是首个在GAN中应用视觉Transformer的模型之一。

该模型在标准图像生成基准(包括CIFAR、CelebA和LSUN卧室数据集)中的表现,与最先进的卷积架构相当。

实验方法
CV圈对决:谷歌提出ViTGAN,用视觉Transformer训练GAN

上述图示展示了VITGAN的架构,包括一个ViT鉴别器和一个基于ViT的生成器。

实验结果表明,直接使用ViT作为鉴别器会导致训练不稳定。为此,作者对生成器和鉴别器都引入了新的技术,以稳定训练过程并促进收敛。

由于现有的GAN正则化方法与自我注意机制的结合效果不佳,训练过程中出现了显著的不稳定性。

为了解决这一问题,作者提出了一种新颖的正则化技术,使得ViT的GAN在数据集上实现了与最先进的基于CNN的styleGAN2相当的性能。

Lipschitz连续性在GAN的鉴别器中至关重要,最初作为WGAN中近似Wasserstein距离的条件引入,随后在其他GAN设置中也得到了验证,超出了Wasserstein损失的范围。特别是,Lipschitz鉴别器的存在确保了最优鉴别函数和唯一纳什均衡的存在。

然而,近期研究表明,标准的点积自注意层的Lipschitz常数可能是无界的,这使得ViT中的Lipschitz连续性受到挑战。

实验中用欧氏距离替代点积相似度,确保query和key的投影矩阵权重一致。

CV圈对决:谷歌提出ViTGAN,用视觉Transformer训练GAN

研究发现,在初始化时将每层的归一化权重矩阵与谱范数相乘,便能有效解决这一问题。实验采用以下更新规则以实现谱范数,其中σ是权重矩阵的标准谱范数。

设计生成器
CV圈对决:谷歌提出ViTGAN,用视觉Transformer训练GAN

设计基于ViT架构的生成器并非易事。一个挑战是将ViT的输出从类别标签的预测转变为在空间区域内生成像素点。

在介绍实验模型之前,作者讨论了两个可信的基线模型,如图2(A)和(B)所示。这两个模型通过交换ViT的输入和输出,从嵌入物中生成像素,特别是从潜在向量w(即w=MLP(z),图2中的映射网络)导出,该向量由MLP从高斯噪声向量z中生成。

实验结果
CV圈对决:谷歌提出ViTGAN,用视觉Transformer训练GAN

TRanSGAN是目前唯一一个完全基于Transformer架构的无卷积GAN,其最佳变体为TRanSGAN-XL。

Vanilla-VIT是一种基于ViT的GAN,采用图2(A)中展示的生成器和一个基本的ViT鉴别器。

为确保公平比较,该基线使用了R1惩罚和bCR + DiffAug。

此外,BigGAN和styleGAN2也作为先进的基于CNN的GAN模型加入对比。

从上述结果可见,VITGAN模型在性能上明显优于其他基于Transformer的GAN模型。这是对Transformer架构下稳定GAN训练的改进所致,其性能与最先进的基于CNN的模型相当。

CV圈对决:谷歌提出ViTGAN,用视觉Transformer训练GAN

这一结果提供了实验证据,表明Transformer架构在生成对抗训练中可以与卷积网络相媲美。

CV圈对决:谷歌提出ViTGAN,用视觉Transformer训练GAN

CV圈对决:谷歌提出ViTGAN,用视觉Transformer训练GAN

CV圈对决:谷歌提出ViTGAN,用视觉Transformer训练GAN

如图所示,VITGAN模型(最后一列)显著提高了最佳Transformer基线(中间列)的图像保真度。即使与styleGAN2相比,VITGAN生成的图像在质量和多样性上也表现不俗。

总结

本文介绍了VITGAN,利用视觉Transformer(ViT)在GAN中的应用,并提出了确保训练稳定性和提高收敛性的基本技术。

在标准基准(CIFAR-10、CelebA和LSUN卧室)上的实验表明,所提出的模型达到了与先进的基于CNN的GAN相媲美的性能。

关于限制,VITGAN作为基于普通ViT架构的新型通用GAN模型,仍然无法超越最好的基于CNN的GAN模型。

通过将先进的训练技术纳入VITGAN框架,未来有望实现改进。希望VITGAN能够推动该领域的进一步研究,并拓展至其他图像和视频合成任务。