扩散模型崛起：图像生成的新趋势

OpenAI最近推出的GLIDE再次引起了对扩散模型的关注。

这一基于扩散模型的文本图像生成大模型，虽然参数规模较小，但生成的图像质量却显著提高。

与此同时，OpenAI的ADM-G模型也重新被提及，该模型的论文标题声称”在图像生成上超越GAN”。

在PapeRs wITh code的基于imageNet数据集的图像生成模型排行榜上，这一模型在从64 x 64到512 x 512的各个分辨率中均占据首位：

扩散模型崛起：图像生成的新趋势

与曾被誉为最强图像生成器的BIgGAN-deep相比，ADM-G模型在LSUN和imageNet 64 x 64的图像生成效果上同样不逊色，甚至达到了SOTA水平。

有网友表示，以前图像生成领域一直由GAN主导，如今看来扩散模型正逐渐崭露头角。

扩散模型的定义

扩散模型是一种新颖的图像生成方法，其名称中的”扩散”实际上指的是一个迭代过程。

在推理过程中，该方法从一幅完全由噪声构成的图像开始，通过逐步预测并去除噪声，最终生成高质量的样本，并逐步添加更多细节。

扩散模型崛起：图像生成的新趋势

OpenAI的ADM-G模型在此基础上引入了类别条件，形成了一种独特的消融扩散模型。

研究改进

研究人员在以下几个方面对模型进行了改进：

扩散模型崛起：图像生成的新趋势

类别引导

在噪声逐步转换为信号的过程中，研究者引入了一个预先训练好的分类网络，该网络能够为生成的中间图像预测标签，从而对生成的图片进行分类。

接着，基于分类分数和目标类别之间的交叉熵损失计算梯度，进而引导下一步生成采样。

缩放分类梯度

通过超参数缩放分类网络的梯度，控制生成图像的多样性和精度。例如，左侧为1.0规模的分类网络，右侧为10.0规模的分类网络，明显可以看到右侧生成的图像在类别上更为一致：

扩散模型崛起：图像生成的新趋势

这表明，分类网络的梯度越高，生成图像的类别一致性和精度也随之提高，但多样性会相应降低。

生成领域的新热点

目前，该模型在GitHub上已获得近千个星标：

扩散模型崛起：图像生成的新趋势

与GAN相比，扩散模型生成的图像更加多样且复杂。

在相同的训练数据集上，扩散模型能够生成全景、局部特写和不同角度的图像：

扩散模型崛起：图像生成的新趋势

左侧为BIgGAN-deep，右侧为ADM。

自2020年谷歌发布DDPM以来，扩散模型逐渐成为生成领域的新热点。

除了OpenAI提到的两篇论文外，还有多个基于扩散模型设计的生成模型，如SEMantic guidence DiFFUSion、ClaSSifieR-free DiFFUSion guidence等。

未来扩散模型将在视觉任务上有哪些新应用，值得我们继续关注。

论文链接：
https://aRxiv.oRg/abs/2105.05233

开源链接：
https://Github.coM/OpenAI/guided-diFFUSion

扩散模型崛起：图像生成的新趋势

互联网资讯 / 人工智能 · 2023年12月30日