谷歌与OpenAI在AI创作领域展开了激烈的竞争。
不久前,DALL·E 2刚发布一个月,谷歌便推出了名为imagen的AI来参与这一较量。
以下是两者的作品对比:左侧是谷歌imagen创作的“猫猫绊倒人类雕像”,右侧是DALL·E 2的同题创作。

你更倾向于哪一位选手的作品呢?
不仅是这种直接的对比让网友们感到DALL·E 2似乎有些过时,还有其他因素促使这种讨论。
例如,看到下面这幅图,如果没有说明是AI生成的,难道不会让人惊叹于两脚兽的摆拍技术日益精湛吗?

当输入“折纸作品:一只狐狸和一只独角兽在飘雪的森林里”,imagen生成的画面如下:

你还可以尝试更复杂的描述。
例如:“一只非常快乐的毛茸熊猫打扮成了在厨房里做面团的厨师的高对比度画像,他身后的墙上还有一幅画了鲜花的画”……(让我先喘口气)
imagen也轻松完成,所有要素都一应俱全:

看到这些,机器学习领域的网友有这样的反应:
“才一个月就又更新换代了?”

“求求别再震惊我了。”

这一热潮迅速引发了更广泛的关注。
普通网友们开始联想到未来可能不再需要图库网站。

那么,谷歌的新AI究竟掌握了哪些独特的技术呢?
接下来我们将详细探讨。
增强理解能力比优化生成更重要
文本到图像生成的技术我们之前已经介绍过不少,大多遵循相同的模式:
CLIP负责将文本特征映射到图像特征,并引导GAN或扩散模型生成图像。
然而,谷歌imagen这次进行了颠覆性的创新——
它使用纯语言模型专注于编码文本特征,而将文本到图像的转换交给图像生成模型。
语言模型使用的是谷歌的T5-XXL,训练完成后冻结文本编码器。
图像生成部分则采用了一系列扩散模型,首先生成低分辨率图像,然后逐级超采样。

这样做的最大好处是,纯文本训练数据比高质量图文对数据更容易获取。
T5-XXL的C4训练集包含800GB的纯文本数据,使其在文本理解能力上优于用有限图文对训练的CLIP。
实验数据支持这一点:在人类评估中,T5-XXL在保真度和语义对齐方面的表现均优于CLIP。

谷歌的实验还发现,扩大语言模型的规模对最终效果的影响大于扩大图像生成模型的影响。

有网友指出,谷歌最后使用的T5-XXL参数规模还不到最新PaLM语言模型5400亿参数的1%,如果采用PaLM,效果会如何呢?

除了语言模型的创新,谷歌在imagen的研究中对扩散模型进行了多项优化。
首先,增加无分类器引导(classifier-free guidance)的权重可以改善图文对齐,但会影响图像保真度。
为了解决这一问题,谷歌在每一步采样时使用动态阈值,以防止过饱和。

其次,在低分辨率图像上增加噪声的同时使用高引导权重,可以改善扩散模型的多样性不足。
第三,对扩散模型的经典结构U-Net进行了改进,新的EFFicient U-Net提升了内存使用效率、收敛速度和推理时间。
经过这些改进后,imagen模型在整体评估中表现优异。
例如,在COCO基准测试中达到了新的SOTA,尽管未使用COCO数据集进行训练。

在COCO测试的人类评估部分发现,imagen在生成无人的图像方面表现更佳。
具体来说,无人类图像在写实度上获得了更高的偏好度。

同时,谷歌推出了比COCO更具挑战性的测试基准DRawBench,包含各种复杂的提示词。
实验表明,DALL·E 2在同时要求两个颜色的情况下难以准确理解,而imagen则表现良好。

在一些反常识的情况下,比如“马骑着宇航员”,两者都表现不佳,只能画出“宇航员骑着马”。
然而,imagen对“熊猫在做咖啡拉花”的理解更加准确,仅出错一次;而DALL·E 2则将熊猫全部画入了拉花图案中。

对于需要图像中出现文字的情形,imagen的表现更为出色,不仅能正确书写文字,还能为文字添加烟花效果。

AI作画日益普及
说到AI作画的起源,最早可以追溯到谷歌。
2015年,谷歌推出了DeepDream,开创了根据文本生成图像的先河。

然而,真正使相关技术走向大众的标志性事件是2021年OpenAI的DALL·E的问世。
当时,许多知名人士都纷纷转发和点赞,DALL·E被誉为2021年最令人兴奋的AI技术突破。
随后,语言理解模型与图像生成模型的技术进展在“AI作画”领域集中爆发,一系列CLIP+GAN、CLIP+扩散模型的研究和应用不断引发热潮。

从那时起,技术更新换代的速度愈发加快。
DALL·E 2发布时曾有网友发起投票,询问多长时间会出现新的SOTA,结果大多数人选择了几个月或一年以上。
