对多种StyleGAN的集中整理与应用实践
StyleGAN 在图像处理与编辑任务中展现出极高的潜力;通过简单的预训练与潜空间的小幅操作,就能让 StyleGAN 在多种任务上直接“上手”,包括全景图生成、从单张图像生成、特征插值、图像到图像翻译等。以下整理汇总了相关思路与实验要点,便于快速参考与应用。
相关示例与讨论在社区获得广泛关注,本文按思路逐条展开,帮助读者了解核心方法及对比结果。

1) 全景/一体化操作的直观性与可实现性
StyleGAN 具备全卷积结构,通过调整中间特征 fi 的空间维度,可以在输出图像中引入直接且真实的空间变化。采用简单的空间操作(如 padding、resize)即可实现更直观、真实的图像效果。例如,通过在背景中复制扩展树木和灌木,获得更自然的纹理保留,相较直接 Resize 可能带来的纹理模糊更具真实感。

2) 特征插值与混合
直接拼接 StyleGAN 中间层的特征可实现不同图像信息的混合;但当两张图差异较大时,拼接效果往往不理想。引入特征插值后,可以在每一层对 fAI、fBI 进行平滑混合,再传递到下一层继续同样操作。

其中 α∈ [0, 1]B×C×H×W 为混合掩码,若用于水平混合,则掩码从左到右逐步增大。对比定性与定量评估显示,该方法在图像无缝混合方面优于部分对照方法,用户研究中也表现出明显偏好(在40人、对比25对图像的实验中,87.6%的人偏好该方法)。
(
3) 从单张图像生成变体
在单图中应用特征插值时,可以选取相关 patch,与其他区域进行空间级复制与混合。通过移位运算符 SHift 进行局部拼接,得到与 SinGAN 相似的多样化效果,但无需采样过程,手动选取 patch 即可。

该方法在定性与定量上相较 SinGAN 展现出更高的多样性与真实感;在用户研究中,83.3% 的参与者更喜欢该方法生成的新图像。

4) 改进 GAN 反演
在 W+ 空间定位风格码以实现目标图像的重构与编辑,一些工作认为简单非线性变换下 W+ 空间可近似高斯分布。然而在属性转移场景中,往往需要对源图像与参考图像进行反演,效果并不总是理想。新的研究发现,对比使用 W+,在面部操作的 σ 空间中应用高斯先验可以带来更好的重建与可编辑性。但也有观点认为,即使不进行额外的变换,σ 空间也能被建模为高斯分布,并在该空间施加相同先验也可实现良好效果。综合比较在图像重建与可编辑性方面均有显著提升。

5) 图像到图像翻译(Image-to-Image Translation)
得益于 σ 空间的效果,在进行翻译时可让 fReeze 中的 σ 进行仿射变换层的应用,以更好地保留语义(如下图中嘴部形状的保持)。另外,研究还发现:
- 在所有空间维度上可以使用常数 α 实现连续翻译;
- 通过选择特定区域执行特征插值实现局部翻译;
- 结合改进的 GAN 反演实现真实人脸上的面部编辑与翻译。实现的翻译效果更自然、语义保留更好。

6) 全景生成(Panorama Generation)
通过“编织”两幅图像的混合区间,生成全景图像;方法不仅可拓展到水平拼接,也可实现任意长度的全景生成。示例展示在下方:

多次重复上述过程即可得到更长的全景图像,示例覆盖多种场景。

7) 属性转移(Attribute Transfer)与姿势对齐
为了使特征插值在不同人物姿态下的属性迁移更准确,研究者在源图像与参考图像之间对前2048维的 W+ 风格码进行姿势对齐,然后应用特征插值实现属性从源图像到目标图像的转移。与现有方法对比,所提出的方法在细节保真度与真实感方面表现更优。

对比 Collins 等方法,在姿势匹配时能更准确地转移细节属性,Suzuki 等在姿势不匹配时易产生不真实的结果。用户评估进一步印证了方法的优越性。

此外,还可在任意区域执行转移,例如实现两侧眼睛明显不同的两半脸无缝融合:

总结:无需特定架构或额外训练范式,通过在 StyleGAN 潜空间执行一些简单操作或微调,即可在多种图像处理任务达到与传统方法同等甚至更优的性能。对于你来说,这些思路是否有可落地的应用?若需要进一步了解,论文与代码地址如下:
论文地址:https : //aRxiv.oRg/abs/2111.01619
项目地址:https://Github.coM/Mchong6/SOAT