OpenAI最近推出的GLIDE再次引起了对扩散模型的关注。
这一基于扩散模型的文本图像生成大模型,虽然参数规模较小,但生成的图像质量却显著提高。
与此同时,OpenAI的ADM-G模型也重新被提及,该模型的论文标题声称”在图像生成上超越GAN”。
在PapeRs wITh code的基于imageNet数据集的图像生成模型排行榜上,这一模型在从64 x 64到512 x 512的各个分辨率中均占据首位:

与曾被誉为最强图像生成器的BIgGAN-deep相比,ADM-G模型在LSUN和imageNet 64 x 64的图像生成效果上同样不逊色,甚至达到了SOTA水平。
有网友表示,以前图像生成领域一直由GAN主导,如今看来扩散模型正逐渐崭露头角。
扩散模型的定义
扩散模型是一种新颖的图像生成方法,其名称中的”扩散”实际上指的是一个迭代过程。
在推理过程中,该方法从一幅完全由噪声构成的图像开始,通过逐步预测并去除噪声,最终生成高质量的样本,并逐步添加更多细节。

OpenAI的ADM-G模型在此基础上引入了类别条件,形成了一种独特的消融扩散模型。
研究改进
研究人员在以下几个方面对模型进行了改进:
- 在保持模型大小不变的前提下,增加深度与宽度。
- 增加注意头的数量。
- 在32 x 32、16 x 16和8 x 8的分辨率下均使用注意力机制。
- 使用BIgGAN的残差块对激活函数进行上采样和下采样。
- 将残差连接缩小为原来的1/根号2。

类别引导
在噪声逐步转换为信号的过程中,研究者引入了一个预先训练好的分类网络,该网络能够为生成的中间图像预测标签,从而对生成的图片进行分类。
接着,基于分类分数和目标类别之间的交叉熵损失计算梯度,进而引导下一步生成采样。
缩放分类梯度
通过超参数缩放分类网络的梯度,控制生成图像的多样性和精度。例如,左侧为1.0规模的分类网络,右侧为10.0规模的分类网络,明显可以看到右侧生成的图像在类别上更为一致:

这表明,分类网络的梯度越高,生成图像的类别一致性和精度也随之提高,但多样性会相应降低。
生成领域的新热点
目前,该模型在GitHub上已获得近千个星标:

与GAN相比,扩散模型生成的图像更加多样且复杂。
在相同的训练数据集上,扩散模型能够生成全景、局部特写和不同角度的图像:

左侧为BIgGAN-deep,右侧为ADM。
自2020年谷歌发布DDPM以来,扩散模型逐渐成为生成领域的新热点。
除了OpenAI提到的两篇论文外,还有多个基于扩散模型设计的生成模型,如SEMantic guidence DiFFUSion、ClaSSifieR-free DiFFUSion guidence等。
未来扩散模型将在视觉任务上有哪些新应用,值得我们继续关注。
论文链接:
https://aRxiv.oRg/abs/2105.05233
开源链接:
https://Github.coM/OpenAI/guided-diFFUSion



