将简单草图转化为逼真图像的过程属于图像到图像转换,它通过深度生成模型学习输入条件分布来生成自然图像。
该领域的核心在于利用预训练神经网络来捕捉自然图像的流形,通过对大量成对或无对数据的训练,来让模型在潜在空间中对任意采样做出可靠输出。上游的预训练合成网络为下游任务提供稳定的潜在表征,后续会对输入进行语义层面的映射与微调。
长期以来,虽有多种特定任务的改进方法达到较高水平,但普遍难以生成适用于实际应用的高保真图像。
近来,一项研究提出了“预训练即所有所需”的观点,强调在图像到图像转换中,预训练的重要性高于单独设计专门架构并从头训练的单任务模型,尤其在配对数据不足时表现更优。为此,研究者提出将图像到图像的转换视为下游任务,并引入一个通用框架,利用预训练扩散模型来适应多种转换场景。他们将这一预训练模型命名为 PITI。
在 ADE20K、COCO-Stuff、DIODE 等挑战基准上的广泛实验显示,PITI 合成的图像在真实感与保真度方面达到前所未有的水平。
研究者没有选用在特定领域表现最好的生成对抗网络(GAN),而是利用扩散模型来生成广泛且多样的图像。输出可以来自两类潜在代码:一种描述视觉语义,另一种用于对图像波动进行微调。语义信息和低维潜在向量对下游任务至关重要,因此他们采用 GLIDE 作为预训练的先验生成模型,GLIDE 通过文本条件编码潜在语义,允许建立有意义的语义潜在空间。
扩散与基于分数的方法在多项基准上展现出稳定的生成质量。在类条件 ImageNet 任务中,这些模型在视觉质量和采样多样性方面可与基于 GAN 的方法相媲美。伴随大规模文本-图像配对训练,扩散模型展现出惊人的能力;经过训练的扩散模型能为合成任务提供通用的生成先验。
研究者通过前置任务对海量数据进行预训练,并建立一个具备实用意义的潜在空间来预测图像统计信息。
在下游任务中,他们对语义空间进行条件微调,以映射特定环境需求。该框架在预训练信息的基础上生成可信的视觉效果。
研究建议以语义输入来对扩散模型进行预训练,基于 GLIDE 的文本条件和图像训练。Transformer 网络对文本输入进行编码并给扩散模型输出 Token,文本嵌入空间被认为是具备意义的。
上图展示了研究者的工作。相比从头开始的方案,预训练模型在图像质量和多样性方面有显著提升。由于 COCO 数据集包含大量类别与组合,基线方法往往难以在复杂场景中呈现美观结果。该方法能够在挑战性场景中生成具有精确语义和丰富细节的图像,从而展现出较高的灵活性。
表 1 的对比显示,所提方法在多项指标上持续优于其他模型。与在掩码到图像合成方面的前沿方法相比,PITI 在 FID 指标上取得显著改进,并在草图到图像以及几何到图像的合成任务中也表现良好。
图 3 展示了不同任务上的可视化结果。实验表明,与从头训练的方法相比,预训练模型显著提升了生成图像的质量与多样性,方法能够产生生动的细节与准确的语义,即使面对具有挑战性的生成任务。
研究还在 Amazon Mechanical Turk 平台上的 COCO-Stuff 数据集进行了一项关于掩码到图像合成的用户研究,招募了 20 名参与者并完成了 3000 票投票。参与者在每轮得到两张图片,需选出更真实的一张。结果显示,所提出的方法在总体上显著优于从零开始的模型和其他基线。
条件图像合成可以在符合条件的前提下创建高质量图片,广泛应用于计算机视觉与计算机图形学中的信息创建与操作。大规模预训练提升了图像分类、对象识别以及语义分割等任务的表现。与此同时,关于大规模预训练对一般生成任务的潜在影响仍在研究之中。
能源消耗与碳排放是图像预训练需要关注的问题。尽管预训练成本较高,但它通常只需一次投入即可带来长期收益。通过条件微调,下游任务可以复用相同的预训练模型,从而在数据受限的场景(如隐私限制或注释成本高)下提升图像合成效果。
