互联网资讯 / 人工智能 · 2023年12月30日

扩散模型崛起:图像生成的新趋势

OpenAI最近推出的GLIDE再次引起了对扩散模型的关注。

这一基于扩散模型的文本图像生成大模型,虽然参数规模较小,但生成的图像质量却显著提高。

与此同时,OpenAI的ADM-G模型也重新被提及,该模型的论文标题声称”在图像生成上超越GAN”。

在PapeRs wITh code的基于imageNet数据集的图像生成模型排行榜上,这一模型在从64 x 64到512 x 512的各个分辨率中均占据首位:

扩散模型崛起:图像生成的新趋势

与曾被誉为最强图像生成器的BIgGAN-deep相比,ADM-G模型在LSUN和imageNet 64 x 64的图像生成效果上同样不逊色,甚至达到了SOTA水平。

有网友表示,以前图像生成领域一直由GAN主导,如今看来扩散模型正逐渐崭露头角。

扩散模型的定义

扩散模型是一种新颖的图像生成方法,其名称中的”扩散”实际上指的是一个迭代过程。

在推理过程中,该方法从一幅完全由噪声构成的图像开始,通过逐步预测并去除噪声,最终生成高质量的样本,并逐步添加更多细节。

扩散模型崛起:图像生成的新趋势

OpenAI的ADM-G模型在此基础上引入了类别条件,形成了一种独特的消融扩散模型。

研究改进

研究人员在以下几个方面对模型进行了改进:

  • 在保持模型大小不变的前提下,增加深度与宽度。
  • 增加注意头的数量。
  • 在32 x 32、16 x 16和8 x 8的分辨率下均使用注意力机制。
  • 使用BIgGAN的残差块对激活函数进行上采样和下采样。
  • 将残差连接缩小为原来的1/根号2。

扩散模型崛起:图像生成的新趋势

类别引导

在噪声逐步转换为信号的过程中,研究者引入了一个预先训练好的分类网络,该网络能够为生成的中间图像预测标签,从而对生成的图片进行分类。

接着,基于分类分数和目标类别之间的交叉熵损失计算梯度,进而引导下一步生成采样。

缩放分类梯度

通过超参数缩放分类网络的梯度,控制生成图像的多样性和精度。例如,左侧为1.0规模的分类网络,右侧为10.0规模的分类网络,明显可以看到右侧生成的图像在类别上更为一致:

扩散模型崛起:图像生成的新趋势

这表明,分类网络的梯度越高,生成图像的类别一致性和精度也随之提高,但多样性会相应降低。

生成领域的新热点

目前,该模型在GitHub上已获得近千个星标:

扩散模型崛起:图像生成的新趋势

与GAN相比,扩散模型生成的图像更加多样且复杂。

在相同的训练数据集上,扩散模型能够生成全景、局部特写和不同角度的图像:

扩散模型崛起:图像生成的新趋势

左侧为BIgGAN-deep,右侧为ADM。

自2020年谷歌发布DDPM以来,扩散模型逐渐成为生成领域的新热点。

除了OpenAI提到的两篇论文外,还有多个基于扩散模型设计的生成模型,如SEMantic guidence DiFFUSion、ClaSSifieR-free DiFFUSion guidence等。

未来扩散模型将在视觉任务上有哪些新应用,值得我们继续关注。

论文链接:
https://aRxiv.oRg/abs/2105.05233

开源链接:
https://Github.coM/OpenAI/guided-diFFUSion

扩散模型崛起:图像生成的新趋势

扩散模型崛起:图像生成的新趋势

扩散模型崛起:图像生成的新趋势