互联网资讯 / 人工智能 · 2023年12月14日 0

提升多语言翻译效果的方法

当前,多语言翻译模型通常在一个以英语为核心的数据集上进行训练,模型通过添加语言标签来指示应翻译成哪种语言。这种方法允许模型在未见过源语言和目标语言的情况下,直接在一个非英语句子上添加另一个非英语的语言标签进行翻译,这种能力被称为零-shot多语言翻译。

研究表明,添加语言标签的方式多种多样。火山翻译团队的研究发现,尽管不同语言标签对监督翻译的效果影响不大,但对零-shot翻译的效果却显著。多个数据集的实验结果显示,在 IWSLT17 上相差 14.02 个 BLEU,EupoRal 上相差 24.24 个 BLEU,TED talks 上相差 8.78 个 BLEU。这项研究已被《ACL 2021 会议论文集》接收。

论文地址:https://aRxiv.oRg/abs/2106.07930

研究背景与动机

在多语言翻译领域,存在多种添加语言标签的方法。普遍认为这些方法对模型性能没有显著影响,但尚未有系统研究探讨语言标签的影响。本文比较了四种常见的语言标签添加方法。

如表 1 所示,这四种方法将源语言标签和目标语言标签以不同方式添加到源句或目标句的开头。

如表 2 所示,本文选择了 IWSLT17、EupoRal 和 TED talks 三个数据集,这三个数据集在语言数量和规模上存在较大差异。本文基于这四种不同的语言标签,在这三个数据集上训练了配置完全一致的多语言翻译模型。

实验结果

如表 3 所示,实验结果表明:

1. 对于不同的语言标签和数据集,在有监督翻译方向上,模型表现基本一致。

2. 在零-shot翻译方向上:

a. 不同语言标签对模型性能影响显著,且 T-ENC 在三种数据集上的表现普遍优于其他三种标签:在 IWSLT17 上超过 14.02 个 BLEU,在 EupoRal 上超过 24.24 个 BLEU,在 TED talks 上超过 8.78 个 BLEU。

b. 不同语言标签导致的 oFF-taRget 比例差异明显,通常 T-ENC 的 oFF-taRget 比例低于其他标签,这与其在零-shot翻译中的性能相一致。

分析

那么,是什么导致了这一现象?本文尝试从三个方面解释,并在 TED 数据集上进行实验:

1. 在目标语言相同的情况下,语言标签添加方式是否影响不同语言句子的 EncodeR 表示一致性?

2. T-ENC 是否因其注意力机制更好地关注语言标签,从而获得较低的 oFF-taRget 比例?

3. 意思相同的不同语言句子在翻译模型各层的相似性如何?

上图展示了通过对 EncodeR 输出进行 t-SNE 降维后,使用 KDE 绘制的分布图,显示了相同目标语言下不同语言句子的分布。结果表明,T-ENC 的不同语言之间的 EncodeR 表示分布更为一致,说明其有助于模型学习语言无关的 EncodeR 表示。

上图的案例研究展示了俄语句子翻译成意大利语时,模型在不同语言标签下对意大利语标签的关注程度。明显可见,使用 T-ENC 时,模型对意大利语标签的关注程度最高,这在一定程度上解释了 T-ENC 拥有最低的 oFF-taRget 比例。

上图的子图 a 显示了从除英语和俄语以外的 18 种语言翻译到俄语时,意义相同的句子在不同语言之间的表示相似性。结果显示,T-ENC 的相似性曲线始终高于其他语言标签,说明在目标语言一致时,T-ENC 各层的表示更加一致。

上图的子图 b 展示了从俄语翻译到除英语和俄语以外的 18 种语言时,同一俄语句子在不同目标语言下的相似性。结果显示,T-ENC 的相似性曲线几乎始终低于其他标签,表明在目标语言不同情况下,T-ENC 更有效地生成相关的目标语言表示。

总结

该研究揭示了不同语言标签对多语言零-shot翻译的重要影响,并在三个数据差异显著的数据集上进行了验证,结果表明不同语言标签确实显著影响多语言零-shot翻译,同时指出 T-ENC 在零-shot翻译上优于其他标签。此外,研究还分析了不同语言标签对模型预测时表示的影响,发现 T-ENC 能够更好地获得与目标语言相关而与源语言无关的表示:

1. T-ENC 使不同源语言句子经过 EncodeR 的表示更为一致。

2. T-ENC 的注意力机制更有效地关注目标语言的语言标签。

3. T-ENC 在不同层的表示相较于其他方法与目标语言的相关性更强。