根据授权,本文将探讨AI根据文字创作抽象画的效果。
AI早已具备根据文字生成图片的能力,但现在,它开始向艺术领域迈进!
接下来,展示一些AI创作的作品,输入为“丛林中的老虎”:

你是否感受到了AI的艺术潜能?它与真正的抽象艺术大师之间还有多远的距离呢?
这次AI生成的图像与传统GAN模型大相径庭,原因在于DeepMind采用了一种全新的算法。
此算法允许用户输入文本,并让AI创造性地回应,从而产出一幅解释该文本的艺术作品。
例如,输入“云”,生成的作品如下:

其他输入如“一张脸”、“尖叫”、“一只猫”、“一个笑脸”、“着火的房子”、“一个人走路”、“丛林中的老虎”、“洞穴壁画”也生成了各具特色的作品:

这种新技能背后是否有技术创新呢?
神经视觉语法系统与双重编码器
总体而言,DeepMind的算法与传统GAN生成图像存在三点显著区别:
首先,该算法生成的图像是通过“进化”而非反向传播直接产生的。
采用进化搜索(evolutionaRy-SeaRch),可以输出独特的“美学成果”,并赋予人类更多的控制权。
其次,算法并非直接进化图像,而是进化生成图像的视觉语法,以创建结构化且有趣的图像。
最后,算法使用了一个预训练的多模态“评判器”(cRITic),它通过海量图片和说明文字的训练,赋予算法理解文字视觉意义的能力。

接下来,详细介绍用于生成图像的神经视觉语法系统以及评估图像适合度的双重编码器“评判器”。
神经语法系统采用分层结构,极大地扩展了核心神经生成器的功能。
用户输入的字符串被送入顶层的LSTM中,LSTM(长短期记忆网络)为每个笔划指定一个中间字符串。
这个中间字符串与原始输入字符串的作用类似,随后被输入到底层的LSTM以输出最终图像的笔划描述,如下图所示。

具体来说,中间向量的第二个位置决定了编码的笔划是透明还是不透明。
第三个位置用于确定笔划的原点,是使用顶层还是中间层指定的位置。
第四个位置则决定在笔划中生成的行数。
为了实现评判功能,需要一种评分机制来评估图像与输入句子的相似度。
因此,他们选择了FRoMe的双编码器方法,该方法在众多网络数据集上取得了显著成功。
该双编码器模型由两个分别处理文本和图像的编码器构成,团队在ALIGN(A LaRge image and Noisy-text)数据集上进行了训练。
视觉编码器基于NF-Net-F0模型,输入为224×224分辨率的RGB图像;文本编码器则是一个80M参数的因果转换器(caUSAl TRansfoRMeR)。
文本编码器保留了单词的顺序和大小写的差异,能够生成不同的图像,例如“Jungle in the TigeR”和“a tigeR in the jungle”。
此外,得益于进化搜索,使用修剪程序可以确定对图像得分有帮助的关键标记。在整个进化过程中,也能删除多余的标记,以优化生成的图像效果。下图展示了“一颗苹果树”的标记修剪过程。

那么,这项技术的实际应用是什么呢?
团队表示,它可以辅助艺术创作、开发新的标记制作方法或将其应用于3D模型等。
而且,画布的背景初始条件不必是空白,或许可以从照片或现有图像出发,通过不同的文本迭代,最终使图像逐渐演变成更具层次感的作品!
当然,算法也有待改进,生成的图像有时令人惊艳,有时却显得平平无奇,甚至混乱,可能由于过拟合导致作品过于抽象。

此外,当允许背景颜色进化得更丰富时,可能会导致图像其他方面的多样性降低。
目前,该算法仍存在一些“偏见”,例如在生成“自画像”时,许多肖像最终呈现为白人男性。
