互联网资讯

对多种StyleGAN的集中整理与应用实践

2024年4月10日 · admin

StyleGAN 在图像处理与编辑任务中展现出极高的潜力；通过简单的预训练与潜空间的小幅操作，就能让 StyleGAN 在多种任务上直接“上手”，包括全景图生成、从单张图像生成、特征插值、图像到图像翻译等。以下整理汇总了相关思路与实验要点，便于快速参考与应用。

相关示例与讨论在社区获得广泛关注，本文按思路逐条展开，帮助读者了解核心方法及对比结果。

终于有人把各路StyleGAN做了个大汇总

1) 全景/一体化操作的直观性与可实现性

StyleGAN 具备全卷积结构，通过调整中间特征 fi 的空间维度，可以在输出图像中引入直接且真实的空间变化。采用简单的空间操作（如 padding、resize）即可实现更直观、真实的图像效果。例如，通过在背景中复制扩展树木和灌木，获得更自然的纹理保留，相较直接 Resize 可能带来的纹理模糊更具真实感。

终于有人把各路StyleGAN做了个大汇总

2) 特征插值与混合

直接拼接 StyleGAN 中间层的特征可实现不同图像信息的混合；但当两张图差异较大时，拼接效果往往不理想。引入特征插值后，可以在每一层对 fAI、fBI 进行平滑混合，再传递到下一层继续同样操作。

终于有人把各路StyleGAN做了个大汇总

其中 α∈ [0, 1]B×C×H×W 为混合掩码，若用于水平混合，则掩码从左到右逐步增大。对比定性与定量评估显示，该方法在图像无缝混合方面优于部分对照方法，用户研究中也表现出明显偏好（在40人、对比25对图像的实验中，87.6%的人偏好该方法）。

( 终于有人把各路StyleGAN做了个大汇总

3) 从单张图像生成变体

在单图中应用特征插值时，可以选取相关 patch，与其他区域进行空间级复制与混合。通过移位运算符 SHift 进行局部拼接，得到与 SinGAN 相似的多样化效果，但无需采样过程，手动选取 patch 即可。

终于有人把各路StyleGAN做了个大汇总

该方法在定性与定量上相较 SinGAN 展现出更高的多样性与真实感；在用户研究中，83.3% 的参与者更喜欢该方法生成的新图像。

终于有人把各路StyleGAN做了个大汇总

4) 改进 GAN 反演

在 W+ 空间定位风格码以实现目标图像的重构与编辑，一些工作认为简单非线性变换下 W+ 空间可近似高斯分布。然而在属性转移场景中，往往需要对源图像与参考图像进行反演，效果并不总是理想。新的研究发现，对比使用 W+，在面部操作的 σ 空间中应用高斯先验可以带来更好的重建与可编辑性。但也有观点认为，即使不进行额外的变换，σ 空间也能被建模为高斯分布，并在该空间施加相同先验也可实现良好效果。综合比较在图像重建与可编辑性方面均有显著提升。

终于有人把各路StyleGAN做了个大汇总

5) 图像到图像翻译（Image-to-Image Translation）

得益于 σ 空间的效果，在进行翻译时可让 fReeze 中的 σ 进行仿射变换层的应用，以更好地保留语义（如下图中嘴部形状的保持）。另外，研究还发现：

在所有空间维度上可以使用常数 α 实现连续翻译；
通过选择特定区域执行特征插值实现局部翻译；
结合改进的 GAN 反演实现真实人脸上的面部编辑与翻译。实现的翻译效果更自然、语义保留更好。

终于有人把各路StyleGAN做了个大汇总

6) 全景生成（Panorama Generation）

通过“编织”两幅图像的混合区间，生成全景图像；方法不仅可拓展到水平拼接，也可实现任意长度的全景生成。示例展示在下方：

终于有人把各路StyleGAN做了个大汇总

多次重复上述过程即可得到更长的全景图像，示例覆盖多种场景。

终于有人把各路StyleGAN做了个大汇总

7) 属性转移（Attribute Transfer）与姿势对齐

为了使特征插值在不同人物姿态下的属性迁移更准确，研究者在源图像与参考图像之间对前2048维的 W+ 风格码进行姿势对齐，然后应用特征插值实现属性从源图像到目标图像的转移。与现有方法对比，所提出的方法在细节保真度与真实感方面表现更优。

终于有人把各路StyleGAN做了个大汇总

对比 Collins 等方法，在姿势匹配时能更准确地转移细节属性，Suzuki 等在姿势不匹配时易产生不真实的结果。用户评估进一步印证了方法的优越性。

终于有人把各路StyleGAN做了个大汇总

此外，还可在任意区域执行转移，例如实现两侧眼睛明显不同的两半脸无缝融合：

终于有人把各路StyleGAN做了个大汇总

总结：无需特定架构或额外训练范式，通过在 StyleGAN 潜空间执行一些简单操作或微调，即可在多种图像处理任务达到与传统方法同等甚至更优的性能。对于你来说，这些思路是否有可落地的应用？若需要进一步了解，论文与代码地址如下：

论文地址：https : //aRxiv.oRg/abs/2111.01619

项目地址：https://Github.coM/Mchong6/SOAT