互联网资讯 / 人工智能 · 2024年1月2日

openmagic_cn_banner

扩散模型与自动编码器的关系研究

扩散模型因其在图像生成效果上与GAN相媲美，近期成为AI领域的热点。

openmagic_cn_banner

过去一年，谷歌和OpenAI相继推出了各自的扩散模型，其效果令人惊叹。

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

与此同时，剑桥大学的学者David KRuegeR提出，自动编码器或许会再次成为研究的焦点。

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

openmagic_cn_banner

最近，DeepMind的研究科学家SandeR DieleMan基于这两种趋势，提出了一个新观点：扩散模型实际上就是自动编码器。

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

这一观点迅速引发了广泛关注，许多网友表示SandeR的论述很有道理，并获得了启发。

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

那么，他是如何论证这一观点的呢？让我们一探究竟。

去噪自动编码器与扩散模型的关系

要理解这两者之间的联系，首先需要了解它们各自的特点。

扩散模型是一种新型图像生成方法，其“扩散”指的是一个迭代过程。该方法最早在2015年提出，它定义了一个马尔可夫链，通过在扩散步骤中逐步向数据添加随机噪声，并学习如何逆转该过程，从噪声中构建所需的数据样本。

与GAN、VAE和基于流的生成模型相比，扩散模型在性能上具有良好的权衡，最近已被证明在图像生成方面潜力巨大，特别是在保证保真度与多样性方面的结合。

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

例如，去年谷歌推出的级联扩散模型SR3能够以低分辨率图像为输入，从纯噪声中生成高分辨率图像。

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

OpenAI的GLIDE和ADM-G也采用了扩散模型，生成更加真实、多样且复杂的图像。

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

△GLIDE模型效果

接下来，让我们看看自动编码器的原理。自动编码器可理解为一个旨在还原原始输入的系统，其结构如下：

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

其主要目的是将输入转换为中间变量，然后再将中间变量转化为输出，最后对比输入和输出，使其接近。

当模型中存在瓶颈层或输入受损时，自动编码器能够学习输入的本质特征，从而发挥其作用。

在此，作者主要比较的是去噪自动编码器。它能够将损坏的数据作为输入，通过训练预测未损坏的原始数据作为输出。

这听起来是不是很熟悉？向输入中添加噪声，正是一种损坏输入的方法。

因此，去噪自动编码器和扩散模型在原理上是有相似之处的。

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

二者如何等价？

为了验证这一想法，作者从原理上拆解了扩散模型。

扩散模型的关键在于一个分数函数（score function）。

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

需要注意的是，这与

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

不同（求梯度的参数不同）。通过后者，我们可以了解如何改变模型参数以增加输入的可能性，而前者则可以告诉我们如何改变输入本身以增加可能性。

在训练过程中，希望在去噪的每个步骤中使用相同的网络。为此，需要引入一个额外的输入

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

，以便追踪去噪的进度

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

。

当t=0时，对应无噪声数据；当t=1时，对应纯噪声数据。

训练这个网络的方法是通过添加噪声

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

来损坏输入x，然后从

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

中预测

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

。

需要注意的是，这里的方差大小取决于t，因为它对应特定点的噪声水平。损失函数通常使用均方误差（MSE），有时会用λ(t)加权，因此某些噪声水平会优先于其他噪声水平。

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

假设λ(t)=1时，一个关键的观察结果为

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

或x（它们是等价的），可用公式表示：

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

为确保它们等价，可以考虑使用训练模型

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

来预测

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

，并添加一个新的残差连接。输入到输出的比例系数均为-1，这样调整后的模型实现了：

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

因此，一个扩散模型逐渐转变为去噪自动编码器！

作者认为这一规律值得进一步研究，这意味着随着噪声水平逐步降低，扩散模型能够逐渐补充图像细节。

最后，我们来介绍一下这一发现的提出者——SandeR DieleMan。他是DeepMind的一位研究科学家，主要研究领域包括生成模型和音乐合成。

You may also like...

openmagic_cn_banner