互联网资讯 / 人工智能 · 2023年12月8日 0

FELIX文本编辑模型速度比seq2seq快90倍

序列到序列(seq2seq)模型在自然语言生成任务中已经被广泛应用,包括机器翻译和单语言生成任务,如文本摘要、句子融合、文本简化及机器翻译的后编辑等。

然而,对于许多单语任务而言,seq2seq模型并不是最佳选择,因为这些任务通常只需对输入文本进行轻微的重写。在这些情况下,seq2seq模型的生成速度较慢,因为它们是自回归生成,每次只能输出一个单词,同时也存在浪费,因为许多输入标记的内容只是简单复制到输出中。

相对而言,文本编辑模型因其能够预测编辑操作(如删除、插入或替换单词)而受到越来越多的关注,这些操作应用于输入文本以重构输出。

然而,以前的文本编辑方法存在一些局限性:要么速度快(非自回归),但编辑操作有限;要么灵活性高,支持更多的编辑操作,但速度较慢(自回归)。

在这两种情况下,这些方法未能有效建立大型结构变化模型,例如将主动语态转换为被动语态,从“他们晚餐吃牛排”转变为“晚餐吃牛排”,而是专注于局部变换,如删除或替换短语。

在需要进行大型结构转换时,文本编辑模型要么无法生成该转换,要么会加入大量新文本,从而导致速度降低。

在最新研究《FELIX: 通过标签和插入进行灵活的文本编辑》中,Google团队提出了FELIX,一个快速且灵活的文本编辑系统,其在进行大结构变化时相比seq2seq方法提升了90倍的速度,并在四种单语言编辑任务中表现优异。

FELIX文本编辑模型速度比seq2seq快90倍

与传统的seq2seq方法相比,FELIX具备以下三个主要优势:

样本效率:训练一个高精度的文本生成模型通常需要大量高质量的监督数据。FELIX通过三种技术最小化所需数据量:(1)微调预训练检查点,(2)学习少量编辑操作的标记模型,(3)执行与预训练任务相似的文本插入任务。

快速推理时间:FELIX完全采用非自回归方式,避免了自回归解码器带来的推理时间延迟。

灵活的文本编辑:FELIX在学习编辑操作的复杂性与建模转换的灵活性之间取得了平衡。

简而言之,FELIX旨在充分利用自监督预训练的优势,在资源匮乏、训练数据有限的情况下实现高效训练。

概述

为实现上述目标,FELIX将文本编辑任务拆分为两个子任务:标记输入单词的子集及其在输出文本中的顺序,以及插入输入文本中不存在的单词。

标注模型采用新颖的指针机制,支持结构转换,而插入模型则基于掩码语言模型(MLM)。这两个模型均为非自回归,从而确保了模型的高效性。以下是FELIX的示意图。

FELIX文本编辑模型速度比seq2seq快90倍

一个用于文本简化任务的FELIX数据训练示例。输入词首先被标记为保留(K)、删除(D)或保留和插入(I)。标记完成后,输入将被重新排序,然后将这个重新排序的输入反馈给MLM。

标记模型

FELIX的第一步是标记模型,由两个组件构成。

首先,标记器确定哪些词需要保留或删除,以及何处需要插入新词。当标记器预测需要插入时,会在输出中添加一个特殊的MASK标记。

在标记之后,输入经过重新排序的步骤,以形成输出。在这个步骤中,输入的部分内容可以重复使用,而不是插入新的文本。重新排序的步骤支持任意重写,从而能够建模大型变更。

指针网络训练使输入中的每个单词指向它在输出中出现的下一个单词,如下所示。

FELIX文本编辑模型速度比seq2seq快90倍

从“墙壁上有3层的心脏”转换为“心脏 MASK 3层”体现了指向机制。

插入模型

标记模型的输出为重新排序的输入文本,包含插入标签预测的已删除单词和MASK标记。插入模型的任务是预测MASK标记的具体内容。由于FELIX的插入模型与BERT的预训练目标非常相似,因此能够直接利用预训练的优势,这在数据稀缺的情况下尤为重要。

FELIX文本编辑模型速度比seq2seq快90倍

插入模型的示例,标记器预测将插入两个单词,插入模型则预测MASK标记的内容。

结果

本文对FELIX在句子融合、文本简化、抽象摘要和机器翻译后编辑方面进行了评估。这些任务所需的编辑类型和操作所依据的数据集大小差异较大。

在一定的数据集大小范围内,FELIX与大型预训练的seq2seq模型(BERT2BERT)和文本编辑模型(LaseRtaggeR)进行比较,以获取句子融合任务的结果(即将两个句子合并为一个)。

结果显示,FELIX的性能优于LaseRtaggeR,并且仅需几百个样本进行训练。对于完整的数据集,自回归的BERT2BERT模型性能优于FELIX,但其推理时间显著更长。

FELIX文本编辑模型速度比seq2seq快90倍

在不同大小的DiscoFUSe训练数据集上,FELIX(使用最佳性能模型)、BERT2BERT和LaseRtaggeR在参考句子完全匹配百分比的比较。

FELIX文本编辑模型速度比seq2seq快90倍

在NVIDIA Tesla P100上,批次为32的延迟(以毫秒为单位)。

结论

FELIX是完全非自回归的,在实现顶尖结果的同时提供了更快的推理时间。

FELIX通过三种技术最小化所需的训练数据量:微调预训练的检查点、学习少量编辑操作以及模仿MLM任务的插入任务。

最终,FELIX在学习的编辑操作的复杂性与可处理的输入输出转换之间取得了良好的平衡。