最近,FACEapp又一次引起了关注,我也下载体验了一下。

感觉还不错,颇有趣味。
FACEapp的技术基础是生成对抗网络(GAN)用于图像生成。
自2014年问世以来,尤其是在生成虚假面孔方面的DeepFAke,GAN几乎主宰了图像生成领域的研究与应用。
然而,GAN的训练过程相对复杂,且容易出现模式崩溃等问题。
别人用DeepFAke「模型」生成的视频与我自己用DeepFAke「魔性」制作的视频对比。
因此,新的前沿模型应运而生。
针对GAN的这些局限性,OpenAI的两位研究者PRafulla DhaRiwal和Alex Nichol探索了其他架构。
在他们最新发布的论文《扩散模型在图像合成中超越GAN》中,提出的扩散模型架构克服了GAN的缺陷,并在图像生成任务中取得了优于GAN的结果,达到了最新的技术水平。
值得注意的是,他们在标题中使用了“击败”这个词,似乎显示出较大的雄心!
他们提到:“在imageNet 512×512上获得了3.85 FID,模型不仅在性能上与BigGAN相当,而且每次采样的前向传播次数减少到25,同时对分布的覆盖更佳。”
意外发现,该论文中提到的15个“state-of-the-art”结果,除了零星几个涉及GAN(不是被打败就是有转折),其余几乎都在赞美他们的新模型。不论这是否真的是SOTA,显然作者对此坚信不疑。
回顾三个月前
有趣的是,引用的论文中有一篇也是这两位作者的作品。
今年2月份,他们发表了一篇名为《改进的降噪扩散概率模型》的论文,其中也进行了GAN的对比,但当时并未声称超越GAN。
没想到,三个月后他们在新论文中宣称成功了,效率着实令人瞩目。
虽然同样是1亿个参数的模型,BigGAN-Deep在FID上的表现明显优于他们当时训练的DDPM,但这两位用2.7亿个参数的模型强行赢得了一轮胜利。
去噪扩散概率模型(DDPM)——改进版
扩散模型作为另一类深度学习模型,在图像生成中同样表现出色。
与GAN通过学习将随机噪声映射到训练分布中的某个点不同,扩散模型会接收噪声图像,并通过一系列降噪步骤逐步减少噪声,从而生成符合训练数据分布的图像。
DDPM能够更快速地进行采样,并且对对数似然率的影响较小。通过增加训练计算量,能进一步提升样本质量和对数似然性。
这两位作者表示:“我们惊讶地发现,改进后的模型可以使用更少的采样次数。”因此,他们将25次前向采样作为宣传的重点。
欲了解更多,可以参考论文:
https://aRxiv.oRg/pdf/2102.09672.pdf
全新扩散模型
三个月后,DhaRiwal和Nichol决定再次对扩散模型架构进行改进,从而进一步提升模型性能。
通过等比例增加深度和宽度,使模型的尺寸保持相对恒定,增加注意力头的数量,并在32×32、16×16和8×8中加入注意力层。使用BigGAN的残差模块来进行激活的上采样和下采样,调整残差连接的尺度。
增加注意力头数量或减少每个头的通道数都能改善FID。
经过对比,最终选择使用128个基本通道,每个分辨率配备2个残差模块,多分辨率注意力和BigGAN的上下采样,并训练模型700K次迭代,每个注意力头部64个通道。
对于imageNet 128×128模型,随着分类器梯度的变化,样本质量也会随之变化。当梯度超过1.0时,可以在准确率和召回率之间找到一个平滑的权衡。
BigGAN-deep截断变化时的权衡。
结果与评估
OpenAI的扩散模型在每项任务中都获得了最高的FID评分,除了一个任务外的所有任务也都得到了最高的sFID评分。
改进后的模型结构在LSUN和imageNet 64×64上达到了SOTA的图像生成结果。
在更高分辨率的imageNet上,该模型优于最佳的GAN,能够实现与GAN相似的感知质量,同时保持较高的覆盖率(以召回率为衡量标准),甚至只需25次扩散。看来作者对这25次前向传播的结果相当满意。
生成模型样本质量的对比。ADM指文中的扩散模型,ADM-G则是加上分类器的。
左侧是BigGAN-deep模型的结果,中间是OpenAI扩散模型的结果,右侧是原始训练集中的图像。
尽管这些图像看似相似,研究人员解释说,扩散模型从训练集中获得了更多的信息:“虽然样本的感知质量相似,但扩散模型所包含的内容比GAN更丰富,例如鸵鸟头部的特写、单只火烈鸟、不同角度的芝士汉堡,以及无人握持的鱼。”
作者的结论
扩散模型相较于GAN能够实现更好的样本质量。
经过改进的架构足以在无条件图像生成任务中实现SOTA,而分类器引导技术则使模型在类条件任务中的样本质量得以进一步提升。
虽然扩散模型可以缩小与GAN在采样时间上的差距,但在采样过程中仍需多次前向传播。
最终,通过将引导与上采样结合,可以使高分辨率条件下的图像合成结果达到SOTA。
此时,又出现了一个转折。
实际上,作者自己也承认,目前的扩散模型在训练计算量上高于GAN,采样速度也不及GAN,且在单步模型上无法与GAN竞争。
最重要的是,论文中的分类器引导技术仅限于标记的数据集,作者未提供有效策略在未标记数据集中实现准确性与多样性的权衡。
网友评论指出:“从计算角度来看,无论是在内存还是在步数上,扩散模型的消耗远高于GAN。”
综上所述,GAN在短期内仍将主导图像生成领域。
