OpenAI 发布了 DALL-E 的部分论文和实现代码。
在今年年初,OpenAI 的图像版 GPT-3,即拥有 120 亿参数的 DALL-E,引起了广泛关注。这个大型模型能够将用自然语言表达的各种概念转换为相应的图像,其效果令人惊叹。
例如,输入“牛油果形状的椅子”,便能生成多种形态各异的绿色牛油果椅子图像。

就像 GPT-3 一样,大家期待 OpenAI 能够发布 DALL-E 的官方论文和实现代码。
经过将近两个月的等待,DALL-E 的论文和代码终于发布了!

不过,该项目仍在持续更新,截至目前,DALL-E 仅开放了使用图像重建的 d-VAE 训练的 CNN 编码器和解码器部分,而 TRansfoRMeR 的代码部分尚未公开。此外,相关数据集也暂时无法使用,而论文则发布了关于 d-VAE 的研究。

项目地址:https://Github.coM/OpenAI/DALL-E 论文地址:https://aRxiv.oRg/abs/2102.12092
我们只能期待 OpenAI 后续公布更多的技术细节。
DALL-E 的部分代码已开源。

这是 DALL-E 使用的 d-VAE 的官方 PyTorch 包。在运行 DALL-E/notebooks/USAge.IPynb 程序之前,需要先安装相关软件包,安装命令如下:
pIP install Git+https://Github.coM/OpenAI/DALL-E.Git

解码器和编码器代码
d-VAE 论文
在论文尚未公开的早期,就有研究者根据某博主制作的油管视频开始复现 DALL-E 的原理,该视频对其结构进行了推测。现在论文已经发布,不知是否会颠覆之前的预想。

传统上,文本到图像的生成主要依赖于在固定的训练数据集上寻找更优的建模假设。这些假设可能涉及复杂的体系结构、辅助损失或额外信息,例如在训练过程中提供的对象部件标签或分割掩码。该研究提出了一种基于 TRansfoRMeR 的简单方法,将文本和图像 Token 作为单一数据流进行自回归建模。在数据充足且扩展的情况下,该方法在零-shot 评估时,与以往的领域特定模型具有相当的竞争力。
