最近,来自 Amazon One 的研究团队开发了一种新的 GAN 训练框架,旨在实现对生成图像的显式控制。该框架允许用户通过设定具体的属性(如年龄、姿势、表情等)来精准调节生成的人脸图像。
该研究成果已在 aRxiv 上发布,并在 Google 云端硬盘中提供了相关的补充材料。
目前,许多编辑 GAN 生成图像的方法主要依赖于隐空间中属性的解构,这些属性是在标准 GAN 训练后隐式获得的。虽然这种方法能够调整某些属性的相对强度,但无法显式设定其具体值。
新提出的方法专为精确控制人脸属性而设计,通过可变形的 3D 人脸模型实现 GAN 中的细粒度控制能力。
与传统方法不同,这种控制不再局限于可变形的三维人脸模型参数,且具有更广泛的适用性。
通过对比学习,研究人员获得了具有明确分解隐空间的 GAN。这种分解被用于训练控制编码器,将可解释的输入映射到合适的隐向量,实现显式控制。
在研究中,团队展示了对身份、年龄、姿势、表情、发色和光照的控制能力。此外,他们还证明了该框架在生成画像和狗狗图像方面的控制能力,显示出新方法在质量和数量上均达到了当前最先进水平。
在第一阶段,构建的每一个批次中的每个属性都有一对隐向量,共享一个相应的子向量。除了对抗性损失外,该批次中的每张图像会逐一与其他图像进行比较,考虑其子向量是否相同。
在第二阶段,编码器被训练用于将可解释的参数映射到相应的隐向量。
在推理阶段,通过将第 k 个编码器输入设置为所需值,实现对属性 k 的显式控制。
关于光线、角度和表情的显式控制效果,研究人员使用 ARcFACE 提取生成图像的嵌入向量,生成了 10K 个共享 ID 属性的图像对,涵盖了不同的姿势、光照和表情属性。
对于发色和年龄的控制效果,研究人员对模型的输出控制精度进行了比较,从 FFHQ 随机选取 10K 张图像,并对其属性进行预测,生成了一个在真实图像中可行的属性池。
该模型还可以在保持其他属性不变的情况下,改变绘画的艺术风格。对于宠物爱好者,可以显式控制生成的狗狗图像的一些属性。
更令人惊讶的是,用户不仅可以调整单一属性,还可以同时控制多个属性值。
通过对 Amazon One 可控 GAN 模型的测试,虽然现有的美颜工具已经相当先进,但未来的功能仍将令人期待。
[[[IMG_1]]]
[[[IMG_2]]]
[[[IMG_3]]]
[[[IMG_4]]]
[[[IMG_5]]]
