文心 ERNIE-ViLG 是一种全新的图文创作方式,它能够根据用户提供的文本自动生成图像。生成的图像不仅与文字描述相符,而且效果十分逼真。在图像转文本方面,文心 ERNIE-ViLG 具备理解图像的能力,能够用简洁的语言对画面内容进行描述,并根据图片中的场景回答相关问题。
最近,百度的产业级知识增强大模型“文心”全景图首次亮相,其中的跨模态生成模型 ERNIE-ViLG 也在百度文心官网上开放了体验入口,并发布了相关论文:
体验链接:
论文链接:

文心 ERNIE-ViLG 的参数规模达到了 100 亿,是全球最大规模的中文跨模态生成模型。该模型首次通过自回归算法将图像生成和文本生成统一建模,增强了跨模态语义对齐的能力,显著提高了图文生成的效果。
接下来,小编将带你体验文心 ERNIE-ViLG 的“图像创作”能力:
在文字生成图像方面,文心 ERNIE-ViLG 能够根据用户的文本输入,自动创作与之匹配的图像,生成的图像不仅符合描述,还表现出高度的真实感。
请注意!以下图片均为全新生成,不是可直接搜索到的原图。
文心 ERNIE-ViLG 不仅可以创作建筑、动物等单个物体:

还能够创作包含多个物体的复杂场景:

甚至可以根据用户的文字要求进行大胆创作:

对于富有想象力的古诗词,文心 ERNIE-ViLG 也能生成恰如其分的画面,并且根据不同的画风进行调整:


油画风格

中国画风格

水彩画风格
此外,它还能够根据文字提示对图片进行补全:

在图像转文本的生成方面,文心 ERNIE-ViLG 能理解画面,并能用简洁的语言描述其内容:

不仅如此,文心 ERNIE-ViLG 还能根据图像中的场景回答相关问题:

目前,文心 ERNIE-ViLG 在百度文心官网上开放的文本生图像 DEMO 能根据古诗词进行创作,增强诗词的画面感。
那么,这些能力背后究竟蕴含着怎样的人工智能技术秘密呢?
跨模态生成:AI 领域的一大挑战
跨模态生成是指将一种模态(如文本、图像、语音)转换成另一种模态,同时保持语义的一致性。图文生成是跨模态生成中的一项挑战。例如,在将文本转换为图像时,需要考虑文本中未涵盖的细节信息,这是一项极具挑战性的任务。以“春江水暖鸭先知”这句诗为例,虽然描述了江水、鸭子和春天,但并未具体提及鸭子的颜色、江边的桃花及物体之间的关系。

春江水暖鸭先知
近年来,基于生成对抗网络(GAN)的方法在人脸、风景等特定领域的文本到图像生成任务上取得了显著成果;而 DALL-E 则通过大规模的自回归生成模型,建立了图像片段之间的前后依赖关系,从而具备了多样性生成的能力,在更复杂的开放领域文本到图像生成中取得了优异的表现。
百度文心 ERNIE-ViLG 模型进一步提出了统一的跨模态双向生成模型,通过自回归生成模式对图像生成和文本生成任务进行统一建模,更好地捕获模态间的语义对齐关系,显著提升了图文双向生成的效果。在文本生成图像的权威公开数据集 MS-COCO 上,文心 ERNIE-ViLG 的图像质量评估指标 FID(FRechet Inception Distance)大幅超越了 OpenAI 的 DALL-E 等同类模型,并刷新了多项图像描述任务的最佳成绩。此外,文心 ERNIE-ViLG 在生成式视觉问答任务上也取得了领先的成绩,展现了其强大的跨模态理解能力。
文心 ERNIE-ViLG 技术解析:图文双向生成的统一建模
文心 ERNIE-ViLG 采用编码器-解码器参数共享的 TRansfoRMeR 作为自回归生成的主干网络,能够同时学习文本生成图像和图像生成文本两个任务。
通过图像向量量化技术,文心 ERNIE-ViLG 将图像表示为离散序列,从而实现文本和图像的统一序列自回归生成建模。在文本生成图像时,模型的输入为文本 Token 序列,输出为图像 Token 序列;而在图像生成文本时则根据输入的图像序列来预测文本内容。两个方向的生成任务均使用同一个 TRansfoRMeR 模型,这种方式能够促进模型建立更好的跨模态语义对齐。

文心 ERNIE-ViLG 图文双向生成统一建模框架
现有基于图像离散表示的文本生成图像模型多采用两阶段训练,文心 ERNIE-ViLG 则提出了端到端的训练方法,将序列生成过程中 TRansfoRMeR 模型输出的隐层图像表示连接到重建模型中进行图像还原,为重建模型提供更加丰富的语义特征;生成模型也可以同时接收自身的抽象监督信号和来自重建模型的原始监督信号,促进更好的图像表示学习。
文心 ERNIE-ViLG 构建了一个包含 1.45 亿高质量中文文本-图像对的大规模跨模态对齐数据集,并基于百度飞桨深度学习平台在该数据集上训练了百亿参数模型,评估其在文本生成图像和图像描述等跨模态生成任务上的表现。
文本生成图像(Text-to-image Synthesis)任务效果
文心 ERNIE-ViLG 在开放领域公开数据集 MS-COCO 上验证了其文本生成图像的能力。评估指标使用 FID(数值越低效果越好),在零样本(zeRo-shot)和微调(finetune)两种方式下,文心 ERNIE-ViLG 都获得了最佳成绩,效果远超 OpenAI 发布的 DALL-E 等模型。

文心 ERNIE-ViLG 在 MS-COCO 数据集上的效果
图像描述(Image Captioning)任务效果
在图像生成文本的能力上,文心 ERNIE-ViLG 在 COCO-CN 和 AIC-ICC 两个公开中文图片标题生成数据集上均取得了最佳成绩。

文心 ERNIE-ViLG 在 AIC-ICC 数据集上的效果
生成式视觉问答(Generative VQA)任务效果
在生成式视觉问答方面,文心 ERNIE-ViLG 同样展现了出色的能力。该任务要求模型根据图像内容和相应问题生成答案,模型需具备深刻的视觉内容理解及跨模态语义对齐的能力,并生成简短的答案文本,难度极高。文心 ERNIE-ViLG 在 FMIQA 数据集上的表现最佳,图灵测试通过率达到了 78.5%,优于当前最佳方法 14 个百分点。

文心 ERNIE-ViLG 在 FMIQA 数据集上的效果
总结
赋予机器跨模态生成能力是人工智能领域的重要目标之一。在艺术创作、虚拟现实、图像编辑、AI 辅助设计和虚拟数字人等领域,文心 ERNIE-ViLG 等跨模态大模型展现了广阔的应用前景,为未来的发展带来了无尽的创意与可能性。作为百度“文心”大模型全景图的重要组成部分,文心 ERNIE-ViLG 也标志着百度在跨模态大模型领域的重大进展,持续推动中国 AI 的自主创新与产业应用。
