机器翻译可以生成文字对应的画面。
设想一下,一个外国人面前出现了句子「金石迸碎荡尘埃,磐山纡水尽为开」。
除了苦苦琢磨复杂的单词和句子结构,他还有什么办法理解这句话呢?
答案是:想象。
他可以将“金石”、“尘埃”、“山水”等词汇的意象结合,构建出一个具体的画面或场景。

此时,一些研究者灵光一现:
人类能够根据非母语文本联想画面,从而更深入地理解内容,那么机器是否也能通过输入文本进行图像联想,最终实现更优质的翻译呢?
因此,一个以视觉想象为基础的机器翻译模型IMaGit应运而生。
该研究由南洋理工大学和字节跳动人工智能实验室的作者共同完成。
无需图片也能利用视觉
提到“利用视觉”,我们自然而然地想到多模态机器翻译。
相较于传统的文本翻译,多模态机器翻译能够借助语音和图像等多种信息形式来提升翻译质量。
然而,多模态翻译的效果与数据集的可用性密切相关。
换句话说,标注图片的数量和质量直接影响模型翻译的有效性。
但人工标注图片的成本实在不低,因此目前的大多数多模态机器翻译都依赖于Multi30K,这是一个包含3万张标注图像的数据集。
而新提出的IMaGit翻译模型呢?
它在推理阶段无需标注图像作为输入,而是通过想象的方式利用视觉信号,并在训练阶段将视觉语义融入模型内部。
这意味着即使缺乏图片标注,模型仍能利用视觉信息。
基于想象的翻译模型究竟是怎样的?
该模型采用了一个端到端的对抗学习架构。
其结构左右两端是我们熟悉的tRansfoRMeR编码器和解码器,而中间则是这一框架独特的生成想象网络。
生成想象网络主要由两个转化器和一个注意力层构成,具体过程如下:
一、源文本通过F0输入
F0包含一个全连接层和四个去卷积层。
基于GAN的理念,句子特征与噪声结合后,通过F0转化为视觉表征。
二、词层面注意力
在注意力层中,关注源文本的相关词汇,生成图像不同子区域的细粒度细节,使图像特征的子区域与词语相对应。
最终形成更具语义一致性的视觉表征。
三、视觉表征通过F1输出
F1由两个全连接层、一个去卷积层和一个残差层组成。
通过该转化器,捕捉词级和句级的多层次语义,输出生成的视觉特征f1。
四、多模态聚合
将原有的文本模态和新生成的视觉特征相结合。
五、翻译
模型的学习目标结合了文本到图像的生成以及反向任务的图像字幕和翻译。
其中,鉴别器以源文本、生成图像和真实图像作为输入,用于评估合成图像与真实图片的一致性。
同时,还会利用条件对抗损失来评估合成图像与源语言的语义相符程度。
想象如何帮助翻译?
研究人员使用了一种退化策略,通过用特殊字符替换源语言中的重要词汇,以观察模型翻译表现的下降幅度。
在这种情况下,纯文本翻译模型只能通过失去词语的上下文和偏见来推理句子的翻译。
而多模态机器翻译则依赖于标注的图片进行翻译。
而IMaGit在缺乏图片标注的情况下,依然能够根据退化的文本进行想象,恢复丢失的信息。
通过这一独特的实验,IMaGit能够在训练阶段学习特定词汇(如色彩、可具象化的实体词等)与其他词汇之间的相关性和共现。
与纯文本翻译相比,IMaGit通过想象恢复被替换文本的能力使其翻译质量下降幅度最小。
由于IMaGit无需图片作为输入,因此在测试时选用了纯文本的tRansfoRMeR模型作为基准。
在Multi30K的英法、英德test2016和test2017中进行测试时,IMaGit的表现与最先进的多模态翻译系统相当:
而在AMBIguoUS COCO上也取得了良好的测试结果:
论文地址:
https://aRxiv.oRg/abs/2009.09654