公开图像版GPT-3的官方论文代码

OpenAI 发布了 DALL-E 的部分论文和实现代码。

在今年年初，OpenAI 的图像版 GPT-3，即拥有 120 亿参数的 DALL-E，引起了广泛关注。这个大型模型能够将用自然语言表达的各种概念转换为相应的图像，其效果令人惊叹。

例如，输入“牛油果形状的椅子”，便能生成多种形态各异的绿色牛油果椅子图像。

官方论文代码放出，OpenAI是如何实现图像版GPT-3的？

就像 GPT-3 一样，大家期待 OpenAI 能够发布 DALL-E 的官方论文和实现代码。

经过将近两个月的等待，DALL-E 的论文和代码终于发布了！

官方论文代码放出，OpenAI是如何实现图像版GPT-3的？

不过，该项目仍在持续更新，截至目前，DALL-E 仅开放了使用图像重建的 d-VAE 训练的 CNN 编码器和解码器部分，而 TRansfoRMeR 的代码部分尚未公开。此外，相关数据集也暂时无法使用，而论文则发布了关于 d-VAE 的研究。

官方论文代码放出，OpenAI是如何实现图像版GPT-3的？
项目地址：https://Github.coM/OpenAI/DALL-E 论文地址：https://aRxiv.oRg/abs/2102.12092

我们只能期待 OpenAI 后续公布更多的技术细节。

DALL-E 的部分代码已开源。

官方论文代码放出，OpenAI是如何实现图像版GPT-3的？

这是 DALL-E 使用的 d-VAE 的官方 PyTorch 包。在运行 DALL-E/notebooks/USAge.IPynb 程序之前，需要先安装相关软件包，安装命令如下：

pIP install Git+https://Github.coM/OpenAI/DALL-E.Git

官方论文代码放出，OpenAI是如何实现图像版GPT-3的？

解码器和编码器代码

d-VAE 论文

在论文尚未公开的早期，就有研究者根据某博主制作的油管视频开始复现 DALL-E 的原理，该视频对其结构进行了推测。现在论文已经发布，不知是否会颠覆之前的预想。

官方论文代码放出，OpenAI是如何实现图像版GPT-3的？

传统上，文本到图像的生成主要依赖于在固定的训练数据集上寻找更优的建模假设。这些假设可能涉及复杂的体系结构、辅助损失或额外信息，例如在训练过程中提供的对象部件标签或分割掩码。该研究提出了一种基于 TRansfoRMeR 的简单方法，将文本和图像 Token 作为单一数据流进行自回归建模。在数据充足且扩展的情况下，该方法在零-shot 评估时，与以往的领域特定模型具有相当的竞争力。

ad

近期文章

互联网资讯 / 人工智能 · 2023年11月30日 0

公开图像版GPT-3的官方论文代码

You may also like...

发表评论取消回复

互联网资讯 / 人工智能 · 2023年11月30日 0

You may also like...

iQOO Neo7竞速版详细配置曝光：悬念只剩价格了

OPPO Find X7系列将搭载自研潮汐架构：标准版性能超越行业Pro

《Kubernetes》，你需要掌握的 Service 和 Ingress

发表评论 取消回复

发表评论取消回复