图像到图像转换研究：预训练是关键

将简单草图转化为逼真图像的过程属于图像到图像转换，它通过深度生成模型学习输入条件分布来生成自然图像。

该领域的核心在于利用预训练神经网络来捕捉自然图像的流形，通过对大量成对或无对数据的训练，来让模型在潜在空间中对任意采样做出可靠输出。上游的预训练合成网络为下游任务提供稳定的潜在表征，后续会对输入进行语义层面的映射与微调。

长期以来，虽有多种特定任务的改进方法达到较高水平，但普遍难以生成适用于实际应用的高保真图像。

近来，一项研究提出了“预训练即所有所需”的观点，强调在图像到图像转换中，预训练的重要性高于单独设计专门架构并从头训练的单任务模型，尤其在配对数据不足时表现更优。为此，研究者提出将图像到图像的转换视为下游任务，并引入一个通用框架，利用预训练扩散模型来适应多种转换场景。他们将这一预训练模型命名为 PITI。

在 ADE20K、COCO-Stuff、DIODE 等挑战基准上的广泛实验显示，PITI 合成的图像在真实感与保真度方面达到前所未有的水平。

研究者没有选用在特定领域表现最好的生成对抗网络（GAN），而是利用扩散模型来生成广泛且多样的图像。输出可以来自两类潜在代码：一种描述视觉语义，另一种用于对图像波动进行微调。语义信息和低维潜在向量对下游任务至关重要，因此他们采用 GLIDE 作为预训练的先验生成模型，GLIDE 通过文本条件编码潜在语义，允许建立有意义的语义潜在空间。

扩散与基于分数的方法在多项基准上展现出稳定的生成质量。在类条件 ImageNet 任务中，这些模型在视觉质量和采样多样性方面可与基于 GAN 的方法相媲美。伴随大规模文本-图像配对训练，扩散模型展现出惊人的能力；经过训练的扩散模型能为合成任务提供通用的生成先验。

研究者通过前置任务对海量数据进行预训练，并建立一个具备实用意义的潜在空间来预测图像统计信息。

在下游任务中，他们对语义空间进行条件微调，以映射特定环境需求。该框架在预训练信息的基础上生成可信的视觉效果。

研究建议以语义输入来对扩散模型进行预训练，基于 GLIDE 的文本条件和图像训练。Transformer 网络对文本输入进行编码并给扩散模型输出 Token，文本嵌入空间被认为是具备意义的。

上图展示了研究者的工作。相比从头开始的方案，预训练模型在图像质量和多样性方面有显著提升。由于 COCO 数据集包含大量类别与组合，基线方法往往难以在复杂场景中呈现美观结果。该方法能够在挑战性场景中生成具有精确语义和丰富细节的图像，从而展现出较高的灵活性。

表 1 的对比显示，所提方法在多项指标上持续优于其他模型。与在掩码到图像合成方面的前沿方法相比，PITI 在 FID 指标上取得显著改进，并在草图到图像以及几何到图像的合成任务中也表现良好。

图 3 展示了不同任务上的可视化结果。实验表明，与从头训练的方法相比，预训练模型显著提升了生成图像的质量与多样性，方法能够产生生动的细节与准确的语义，即使面对具有挑战性的生成任务。

研究还在 Amazon Mechanical Turk 平台上的 COCO-Stuff 数据集进行了一项关于掩码到图像合成的用户研究，招募了 20 名参与者并完成了 3000 票投票。参与者在每轮得到两张图片，需选出更真实的一张。结果显示，所提出的方法在总体上显著优于从零开始的模型和其他基线。

条件图像合成可以在符合条件的前提下创建高质量图片，广泛应用于计算机视觉与计算机图形学中的信息创建与操作。大规模预训练提升了图像分类、对象识别以及语义分割等任务的表现。与此同时，关于大规模预训练对一般生成任务的潜在影响仍在研究之中。

能源消耗与碳排放是图像预训练需要关注的问题。尽管预训练成本较高，但它通常只需一次投入即可带来长期收益。通过条件微调，下游任务可以复用相同的预训练模型，从而在数据受限的场景（如隐私限制或注释成本高）下提升图像合成效果。

ad

近期文章

互联网技术 / 互联网资讯 · 2024年4月1日

图像到图像转换研究：预训练是关键

You may also like...

互联网技术 / 互联网资讯 · 2024年4月1日

You may also like...

通信企业协作推动央视实现2020春晚5G+8K远程直播

令欧洲夫妇感到震惊的中国超市竟然是永辉

ChatGPT登录失败：出现错误，获取用户值时发生403错误