互联网资讯 / 人工智能 · 2024年4月4日

无限长期记忆的 Transformer 新变体:支持任意长度上下文

过去几年,Transformer 在自然语言处理领域几乎占据主导地位,并逐步延伸至其他领域如计算机视觉等。但其在长上下文上的处理存在挑战:随着上下文长度增加,计算量也在增长,使得长期记忆的建模变得困难。为缓解这一问题,出现了多种 Transformer 变体,但多数仍受限于有限的记忆容量,难以保留较早的信息。

有研究提出了一种名为 Infinity-Former 的模型,它是一种具备无限长期记忆(LTM)的 Transformer 变体,理论上能够处理任意长度的上下文。

Transformer又出新变体∞-former:无限长期记忆,任意长度上下文

研究工作中提到,该模型通过利用连续空间注意力机制来处理长期记忆,使注意力的计算复杂度与上下文长度无关,从而在固定的算力开销下建模任意长度的上下文,并实现“粘性记忆”的特性。

在综合排序任务上,实验表明 Infinity-Former 能保留来自长序列的信息。此外,在语言建模方面的实验包括从头训练和对预训练模型进行微调,结果显示无限长期记忆具有明显优势。

不过,与其他 Transformer 变体的论文一样,该工作也引发了一些讨论:

Transformer又出新变体∞-former:无限长期记忆,任意长度上下文

Infinity-Former:一种拥有无限记忆的 Transformer

为使模型能够处理更长的上下文,研究者将一个连续的长期记忆单元用于扩展原始 Transformer,同时考虑了长期记忆(LTM)和短期记忆(STM)两种记忆形式,整体架构如下图所示。

Transformer又出新变体∞-former:无限长期记忆,任意长度上下文

在实现无限长度记忆的过程中,采用了一个连续空间注意力框架,将输入序列表征为一个连续信号,即径向基函数的线性组合。这种表征有两个显著优点:一是可用较少的基函数来表示更长的上下文,降低注意力的计算量;二是基函数数量可以固定,从而在记忆中表示无限长度的上下文成为可能(如图所示),代价是分辨率的损失,但注意力复杂度不再随上下文长度增加,复杂度为 O(L^2 + L × N),其中 L 为序列长度,N 为基函数数量。

Transformer又出新变体∞-former:无限长期记忆,任意长度上下文

为缓解对较早信息分辨率的损失,研究者引入了“粘性记忆”的概念,将新记忆信号中的较大空间归入此前记忆信号的相关区域。这是一种强制性的信息持续存在机制,使模型在不丢失关键信息的情况下更好地捕捉长上下文,类似于神经系统中的长时程增强与可塑性。

实验结果

为了检验 Infinity-Former 在处理长上下文方面的能力,研究者设计了一个综合任务:按一个长序列中词频对 Token 进行排序,结果如下:

Transformer又出新变体∞-former:无限长期记忆,任意长度上下文

从图示可见,当序列长度达到 4000 时,传统长短期记忆模型在准确率上略高于其他对比方法,但随着长度增加,部分方法的准确率快速下降,而 Infinity-Former 的表现保持相对稳健,显示其在建模长序列方面更具优势。

随后进行的语言建模实验包括:1)从头训练一个模型;2)对一个预训练语言模型进行微调。

第一阶段的结果如下表所示:引入长期记忆扩展的模型确实在困惑度上有提升,粘性记忆也在一定程度上降低了困惑度。

Transformer又出新变体∞-former:无限长期记忆,任意长度上下文

第二阶段的结果如下所示:通过简单地将长期记忆添加到一个预训练语言模型并进行微调,在 WikIText-103 和 PG19 数据集上的困惑度也有所下降。这表明 Infinity-Former 具有多种应用场景:既适合从头训练新模型,也可用于改进现有预训练模型的性能。

Transformer又出新变体∞-former:无限长期记忆,任意长度上下文