IC-GAN:具备强迁移能力的图像生成模型
生成对抗网络(GAN)在图像生成领域表现出色,但对训练数据的依赖较高,且在不同场景和物体组合时容易产生不符合常理的图像,显得不够可信。最近发布的 IC-GAN 模型宣称具备史上最强的迁移能力,能够将多种场景和物体组合起来,未在训练集中出现的组合也能较好复现,甚至在雪地与骆驼等极端搭配下也保持自然感。
GAN 在图像生成方面无疑是最具影响力的框架之一,能够生成逼真的照片、抽象拼贴、风格迁移等多种形式的图像。
但其共性缺陷在于对数据分布的局限性,通常只能生成与训练数据紧密相关的图像。
例如,在专门用于生成汽车图像的模型中,生成汽车图像可能极为真实,但要让同模型生成花卉或动物等其他对象时,生成的图像常常显得违背物理常识,难以通过高质量评判。
[
]
为解决这一问题,研究团队提出了 Instance-Conditioned GAN(IC-GAN),其目标是生成逼真且尚未见过的图像组合。
[
]
这类模型能够实现雪地与骆驼、城市环境中的斑马等看似不相关场景的无缝衔接。
目前相关代码已开源。
IC-GAN 的设计灵感来自核密度估计(kernel density estimation, KDE)这一非参数化方法,用以对复杂数据分布建模。KDE 通过参数化核的混合来描述每个训练点周围的密度。
[
]
IC-GAN 可以被视为一种混合密度估计器,其分量通过对训练样本进行条件化来获得。
与 KDE 的关键区别在于,IC-GAN 并不直接对数据概率进行显式建模,而是通过对抗学习的方式,由神经网络隐式建模局部密度,将条件样本与噪声向量作为输入。
因此,IC-GAN 的核随数据点的性质转变,我们通过调整近邻的范围来控制平滑度,而非直接调节核带宽。训练时从真实样本中采样馈送给鉴别器。
IC-GAN 将数据流形划分为以数据点及其最近邻描述的重叠邻域的混合体,并学习每个点周围的分布。当给定足够大的邻域时,可以避免过度将数据分成太多小簇的情况。
[
]
若给定了未标注数据集的嵌入函数 f,首先通过无监督或自我监督学习得到 f,以提取实例特征(instance features)。随后使用余弦相似度为每个样本定义 k 个最近邻集合。
[
]
在生成器隐式地建模条件分布 p(x | Hi) 时,生成器从单位高斯先验 z ∼ N(0, 1) 变换得到样本 x,其中 Hi 来自训练数据中的实例 xi 的特征向量。
IC-GAN 采用对抗训练,使生成器与判别器共同优化。判别器用于区分 Hi 的真实相邻点与生成的相邻点;对于每个 Hi,真实邻居通过某种策略从训练数据中均匀采样。
[
]
生成器 G 与判别器 D 参与一个两人博弈,目标是在纳什均衡下达到最优解。
[
]
训练阶段利用所有可用训练样本来微调模型。推理阶段与 KDE 等非参数密度估计方法类似,IC-GAN 的生成器仍然需要实例特征,这些特征可以来自训练分布,也可以来自新的分布。
该框架还支持在类条件生成任务中的扩展。通过在类别标签上添加额外的生成器和判别器,IC-GAN 能实现有类别条件的生成。IC-GAN 向生成器和判别器额外输入实例表示,并通过使用实例的邻居来作为判别器的真实样本,以学习数据点(也称为实例)邻域的分布。
相较于对离散簇索引进行条件处理的做法,对实例表示进行条件化更容易让生成器为相似实例创建相似样本。一旦训练完成,IC-GAN 通过推理阶段简单替换条件实例,即可实现对未见数据集的迁移。
[
]
非选择性基线模型通过把训练集中的所有标签设为零来训练,IC-GAN 在对多分辨率下的 FID 和 IS 指标上均显著优于此前方法,并且在高分辨率下生成的图像质量更高。
[
]
在迁移实验中,研究者先在通用大规模数据集上使用类似的架构进行 IC-GAN 的预训练,再在另一个数据分布(包含未见对象组合的实例)上进行评估。结果显示,在多分辨率下的 FID 指标均优于在对比数据集上训练的同款模型;在 128×128 分辨率下,训练 FID 为 8.5,对比分布为 16.8。
[
]
为评估两个数据分布之间的接近程度,研究者计算了在 128×128 分辨率下的实际数据序列分割的 FID,得到约 37.2 的分数。因此,IC-GAN 的显著迁移能力并非单纯由数据集的相似性驱动,而是来自于预训练特征提取器和生成器的有效性。
将对应数据集中的条件实例替换为另一数据集中的条件实例时,训练 FID 得分可达到 43.5,凸显了通过改换条件实例实现重要分布迁移的潜力。
研究进一步将 IC-GAN 扩展到类条件场景,在更大规模数据集上显示出语义可控的生成能力及可比的量化结果。
[
]
类条件 IC-GAN 在 FID 和各分辨率指标上均超越非条件基线,除了在 128×128 分辨率下的 FID 表现略有落后。与某些对照方法不同,IC-GAN 能通过固定实例特征并切换类别条件,或通过固定类别条件并切换实例特征来实现对语义的控制。
[
]
生成的图像在保持类别标签与实例语义的同时,可以在相似背景下呈现不同的对象品种,或在雪地场景中得到不同的动物形象,这些在大型数据集上均被验证为可行。
基于这些新特性,IC-GAN 可用于扩展数据集、为艺术家与创作者提供更丰富的生成内容,并推动高质量图像生成的研究与应用。
[
]