最近,苏黎世联邦理工学院计算机视觉实验室的研究团队提出了一种新型的超分辨率模型 SRFlow。与 GAN 相比,该模型展现出更强的脑补能力,能够根据低分辨率输入有效学习输出的条件分布。这项研究已被 ECCV 2020 接收。
超分辨率问题通常是不适定的,意味着给定的低分辨率图像可以产生多种可能的预测。然而,当前许多主流深度学习方法往往忽视了这一点,它们通过结合重建损失和对抗损失来训练确定性映射。
SRFlow 是一种基于归一化流的超分辨率方法,能够根据低分辨率输入学习高分辨率输出的条件分布。

论文地址:https://arxiv.org/pdf/2006.14200.pdf
项目地址:https://Github.com/andreas128/SRFlow
研究人员采用单一的损失函数,即负对数似然,来训练模型。SRFlow 明确解释了超分辨率问题的非确定性,并预测了不同逼真度的高分辨率图像。此外,研究团队利用 SRFlow 学到的强大图像后验,设计了灵活的图像处理技术,能够通过传输其他图像的内容来增强生成的超分辨率图像。
实验结果表明,SRFlow 在人脸图像及其他超分辨率图像的 PSNR 和感知质量度量上均优于当前最佳的 GAN 方法,同时 SRFlow 允许探索超分辨率解空间,以实现生成图像的多样性。
下图展示了基于 GAN 的 ProgFSR 与基于归一化流的 SRFlow 的比较结果:

SRFlow 方法概述
研究者将超分辨率问题公式化为:在给定低分辨率(LR)输入图像的情况下,学习高分辨率(HR)图像的条件概率分布。该方法通过捕捉基于自然图像流形的所有可能超分辨率图像,明确解决了超分辨率问题的非确定性。
为此,研究团队设计了条件归一化流架构,并通过基于对数似然的训练来学习丰富的分布。
用于超分辨率的条件归一化流
超分辨率的目标是生成缺失的高频细节,预测给定低分辨率图像 x 的更高分辨率版本 y。大多数现有方法学习确定性映射 x->y,而本研究旨在获取与 LR 图像 x 对应的自然 HR 图像 y 的全条件分布。
这一目标具有挑战性,因为模型必须捕获多种可能的 HR 图像,而非仅仅预测单一超分辨率输出。研究的目的是在大量 LR-HR 训练对的基础上,以纯数据驱动的方式训练分布的参数 θ。
条件流层
流层 f^n_θ 的设计需要特别精细,以确保良好的逆映射和易于处理的雅可比行列式。首次解决了这一挑战,许多研究者对该问题表现出浓厚兴趣。
本研究基于无条件 Glow 架构,该架构是基于 RealNVP 的。所使用的流层可以直接设置为有条件的。研究者对此进行了概述,并介绍了其提出的 AFFine InjecTor 层。
架构
SRFlow 的架构如图 2 所示:

应用与图像处理
研究团队将 SRFlow 网络应用于多个图像处理任务,利用 SRFlow 网络的两个关键优势,这些优势是基于 GAN 的超分辨率方法所不具备的。
首先,该网络对 HR 图像空间内的分布进行建模,而不仅仅是预测单个图像。因此,它通过捕获多个可能的 HR 预测而具备极大的灵活性,使得可以使用其他指导信息或随机采样来探索不同的预测。
其次,该流网络 f_θ(y; x) 是完全可逆的编码器-解码器。这意味着任何 HR 图像都可以编码为潜在空间,并精确重构。这种双射关系允许在潜在空间和图像空间之间灵活操作。
随机超分辨率
给定 LR 图像 x,我们可以通过采样不同的 SR 预测,探索 SRFlow 学到的分布。根据基于流的模型的观察,较小方差的采样可以获得最佳结果。因此,研究者使用具有方差 τ(即温度)的高斯分布。当 τ = 0.8 时,结果如图 3 所示:

LR 一致性风格迁移
在对 LR 图像 x 进行超分辨率处理时,SRFlow 允许迁移现有 HR 图像的风格。
下图 4 展示了面部特征、发色和眼睛颜色的风格迁移效果:

潜在空间归一化
研究者利用 SRFlow 网络 f_θ 的可逆性以及学得的超分辨率后验,开发了更先进的图像处理技术。该方法的核心思想是将包含所需内容的任意 HR 图像映射到潜在空间,并在该空间中对潜在统计量进行归一化,使其与给定 LR 图像中的低频信息一致。目标是获得 HR 图像 y,其包含的内容与 LR 图像 x 一致。
图像内容迁移
本研究旨在通过传输其他图像的内容来操控 HR 图像。令 x 为 LR 图像,y 为对应的 HR 图像。要处理的超分辨率图像是 x 的 SR 样本。我们也可以将 x 设置为 y 的下采样版本,从而操控现有的 HR 图像 y。研究者将其他图像的内容直接嵌入 y 的图像空间,从而对 y 进行操控,如下图 5 所示:

图像恢复
研究者将学得的图像后验应用于图像恢复任务,展现其能力。注意,此处研究者使用的是同一 SRFlow 网络,专门针对超分辨率进行训练。研究者探索了影响图像中高频信息的因素,如噪声和压缩伪影。

实验
研究者将其提出的方法与当前的 SOTA 方法进行了比较,并进行了控制变量分析。
人脸超分辨率
基于 CelebA 测试集中的 5000 张图像,评估了 SRFlow 在人脸超分辨率任务中的表现,并与 BIcuBIc、RRDB、ESRGAN 和 ProgFSR 进行了比较。


通用超分辨率
研究者在 DIV2K 验证集上评估了 SRFlow 在通用超分辨率任务中的表现,并与 BIcuBIc、EDSR、RRDB、ESRGAN 和 RankSRGAN 进行了比较。

与基于 GAN 的方法相比,SRFlow 在 PSNR、LPIPS 和 LR-PSNR 结果上明显优于其他方法,并在 PIQUE 和 BRISQUE 方面也取得了优秀的成绩。
可视化结果表明,EDSR 和 RRDB 的感知效果不佳,几乎未能生成高频细节。相比之下,SRFlow 能够生成丰富的细节,实现良好的感知效果。
如第一行所示,ESRGAN 生成的图像在多个位置存在明显的褪色伪影和振铃效应,而 SRFlow 则能生成更加稳定和一致的结果。

控制变量研究
此外,研究者还进行了控制变量实验,以研究深度和宽度这两个因素的影响。结果如图 9 所示:

