互联网资讯

IC-GAN：具备强迁移能力的图像生成模型

2024年4月6日 · admin

生成对抗网络（GAN）在图像生成领域表现出色，但对训练数据的依赖较高，且在不同场景和物体组合时容易产生不符合常理的图像，显得不够可信。最近发布的 IC-GAN 模型宣称具备史上最强的迁移能力，能够将多种场景和物体组合起来，未在训练集中出现的组合也能较好复现，甚至在雪地与骆驼等极端搭配下也保持自然感。

openmagic_cn_banner

GAN 在图像生成方面无疑是最具影响力的框架之一，能够生成逼真的照片、抽象拼贴、风格迁移等多种形式的图像。

但其共性缺陷在于对数据分布的局限性，通常只能生成与训练数据紧密相关的图像。

例如，在专门用于生成汽车图像的模型中，生成汽车图像可能极为真实，但要让同模型生成花卉或动物等其他对象时，生成的图像常常显得违背物理常识，难以通过高质量评判。

[ 最会造假的GAN模型！Facebook发布IC-GAN，迁移能力史上超强 ]

openmagic_cn_banner

为解决这一问题，研究团队提出了 Instance-Conditioned GAN（IC-GAN），其目标是生成逼真且尚未见过的图像组合。

[ 最会造假的GAN模型！Facebook发布IC-GAN，迁移能力史上超强 ]

这类模型能够实现雪地与骆驼、城市环境中的斑马等看似不相关场景的无缝衔接。

目前相关代码已开源。

IC-GAN 的设计灵感来自核密度估计（kernel density estimation, KDE）这一非参数化方法，用以对复杂数据分布建模。KDE 通过参数化核的混合来描述每个训练点周围的密度。

[ 最会造假的GAN模型！Facebook发布IC-GAN，迁移能力史上超强 ]

IC-GAN 可以被视为一种混合密度估计器，其分量通过对训练样本进行条件化来获得。

与 KDE 的关键区别在于，IC-GAN 并不直接对数据概率进行显式建模，而是通过对抗学习的方式，由神经网络隐式建模局部密度，将条件样本与噪声向量作为输入。

因此，IC-GAN 的核随数据点的性质转变，我们通过调整近邻的范围来控制平滑度，而非直接调节核带宽。训练时从真实样本中采样馈送给鉴别器。

IC-GAN 将数据流形划分为以数据点及其最近邻描述的重叠邻域的混合体，并学习每个点周围的分布。当给定足够大的邻域时，可以避免过度将数据分成太多小簇的情况。

[ 最会造假的GAN模型！Facebook发布IC-GAN，迁移能力史上超强 ]

若给定了未标注数据集的嵌入函数 f，首先通过无监督或自我监督学习得到 f，以提取实例特征（instance features）。随后使用余弦相似度为每个样本定义 k 个最近邻集合。

[ 最会造假的GAN模型！Facebook发布IC-GAN，迁移能力史上超强 ]

在生成器隐式地建模条件分布 p(x | Hi) 时，生成器从单位高斯先验 z ∼ N(0, 1) 变换得到样本 x，其中 Hi 来自训练数据中的实例 xi 的特征向量。

IC-GAN 采用对抗训练，使生成器与判别器共同优化。判别器用于区分 Hi 的真实相邻点与生成的相邻点；对于每个 Hi，真实邻居通过某种策略从训练数据中均匀采样。

[ 最会造假的GAN模型！Facebook发布IC-GAN，迁移能力史上超强 ]

生成器 G 与判别器 D 参与一个两人博弈，目标是在纳什均衡下达到最优解。

[ 最会造假的GAN模型！Facebook发布IC-GAN，迁移能力史上超强 ]

训练阶段利用所有可用训练样本来微调模型。推理阶段与 KDE 等非参数密度估计方法类似，IC-GAN 的生成器仍然需要实例特征，这些特征可以来自训练分布，也可以来自新的分布。

该框架还支持在类条件生成任务中的扩展。通过在类别标签上添加额外的生成器和判别器，IC-GAN 能实现有类别条件的生成。IC-GAN 向生成器和判别器额外输入实例表示，并通过使用实例的邻居来作为判别器的真实样本，以学习数据点（也称为实例）邻域的分布。

相较于对离散簇索引进行条件处理的做法，对实例表示进行条件化更容易让生成器为相似实例创建相似样本。一旦训练完成，IC-GAN 通过推理阶段简单替换条件实例，即可实现对未见数据集的迁移。

[ 最会造假的GAN模型！Facebook发布IC-GAN，迁移能力史上超强 ]

非选择性基线模型通过把训练集中的所有标签设为零来训练，IC-GAN 在对多分辨率下的 FID 和 IS 指标上均显著优于此前方法，并且在高分辨率下生成的图像质量更高。

[ 最会造假的GAN模型！Facebook发布IC-GAN，迁移能力史上超强 ]

在迁移实验中，研究者先在通用大规模数据集上使用类似的架构进行 IC-GAN 的预训练，再在另一个数据分布（包含未见对象组合的实例）上进行评估。结果显示，在多分辨率下的 FID 指标均优于在对比数据集上训练的同款模型；在 128×128 分辨率下，训练 FID 为 8.5，对比分布为 16.8。

[ 最会造假的GAN模型！Facebook发布IC-GAN，迁移能力史上超强 ]

为评估两个数据分布之间的接近程度，研究者计算了在 128×128 分辨率下的实际数据序列分割的 FID，得到约 37.2 的分数。因此，IC-GAN 的显著迁移能力并非单纯由数据集的相似性驱动，而是来自于预训练特征提取器和生成器的有效性。

将对应数据集中的条件实例替换为另一数据集中的条件实例时，训练 FID 得分可达到 43.5，凸显了通过改换条件实例实现重要分布迁移的潜力。

研究进一步将 IC-GAN 扩展到类条件场景，在更大规模数据集上显示出语义可控的生成能力及可比的量化结果。

[ 最会造假的GAN模型！Facebook发布IC-GAN，迁移能力史上超强 ]

类条件 IC-GAN 在 FID 和各分辨率指标上均超越非条件基线，除了在 128×128 分辨率下的 FID 表现略有落后。与某些对照方法不同，IC-GAN 能通过固定实例特征并切换类别条件，或通过固定类别条件并切换实例特征来实现对语义的控制。

[ 最会造假的GAN模型！Facebook发布IC-GAN，迁移能力史上超强 ]

生成的图像在保持类别标签与实例语义的同时，可以在相似背景下呈现不同的对象品种，或在雪地场景中得到不同的动物形象，这些在大型数据集上均被验证为可行。

基于这些新特性，IC-GAN 可用于扩展数据集、为艺术家与创作者提供更丰富的生成内容，并推动高质量图像生成的研究与应用。

[ 最会造假的GAN模型！Facebook发布IC-GAN，迁移能力史上超强 ]