互联网资讯 / 人工智能 · 2024年4月4日

openmagic_cn_banner

无限长期记忆的 Transformer 新变体：支持任意长度上下文

过去几年，Transformer 在自然语言处理领域几乎占据主导地位，并逐步延伸至其他领域如计算机视觉等。但其在长上下文上的处理存在挑战：随着上下文长度增加，计算量也在增长，使得长期记忆的建模变得困难。为缓解这一问题，出现了多种 Transformer 变体，但多数仍受限于有限的记忆容量，难以保留较早的信息。

openmagic_cn_banner

有研究提出了一种名为 Infinity-Former 的模型，它是一种具备无限长期记忆（LTM）的 Transformer 变体，理论上能够处理任意长度的上下文。

Transformer又出新变体∞-former：无限长期记忆，任意长度上下文

研究工作中提到，该模型通过利用连续空间注意力机制来处理长期记忆，使注意力的计算复杂度与上下文长度无关，从而在固定的算力开销下建模任意长度的上下文，并实现“粘性记忆”的特性。

在综合排序任务上，实验表明 Infinity-Former 能保留来自长序列的信息。此外，在语言建模方面的实验包括从头训练和对预训练模型进行微调，结果显示无限长期记忆具有明显优势。

openmagic_cn_banner

不过，与其他 Transformer 变体的论文一样，该工作也引发了一些讨论：

Transformer又出新变体∞-former：无限长期记忆，任意长度上下文

Infinity-Former：一种拥有无限记忆的 Transformer

为使模型能够处理更长的上下文，研究者将一个连续的长期记忆单元用于扩展原始 Transformer，同时考虑了长期记忆（LTM）和短期记忆（STM）两种记忆形式，整体架构如下图所示。

Transformer又出新变体∞-former：无限长期记忆，任意长度上下文

在实现无限长度记忆的过程中，采用了一个连续空间注意力框架，将输入序列表征为一个连续信号，即径向基函数的线性组合。这种表征有两个显著优点：一是可用较少的基函数来表示更长的上下文，降低注意力的计算量；二是基函数数量可以固定，从而在记忆中表示无限长度的上下文成为可能（如图所示），代价是分辨率的损失，但注意力复杂度不再随上下文长度增加，复杂度为 O(L^2 + L × N)，其中 L 为序列长度，N 为基函数数量。

Transformer又出新变体∞-former：无限长期记忆，任意长度上下文

为缓解对较早信息分辨率的损失，研究者引入了“粘性记忆”的概念，将新记忆信号中的较大空间归入此前记忆信号的相关区域。这是一种强制性的信息持续存在机制，使模型在不丢失关键信息的情况下更好地捕捉长上下文，类似于神经系统中的长时程增强与可塑性。

实验结果

为了检验 Infinity-Former 在处理长上下文方面的能力，研究者设计了一个综合任务：按一个长序列中词频对 Token 进行排序，结果如下：

Transformer又出新变体∞-former：无限长期记忆，任意长度上下文

从图示可见，当序列长度达到 4000 时，传统长短期记忆模型在准确率上略高于其他对比方法，但随着长度增加，部分方法的准确率快速下降，而 Infinity-Former 的表现保持相对稳健，显示其在建模长序列方面更具优势。

随后进行的语言建模实验包括：1）从头训练一个模型；2）对一个预训练语言模型进行微调。

第一阶段的结果如下表所示：引入长期记忆扩展的模型确实在困惑度上有提升，粘性记忆也在一定程度上降低了困惑度。

Transformer又出新变体∞-former：无限长期记忆，任意长度上下文

第二阶段的结果如下所示：通过简单地将长期记忆添加到一个预训练语言模型并进行微调，在 WikIText-103 和 PG19 数据集上的困惑度也有所下降。这表明 Infinity-Former 具有多种应用场景：既适合从头训练新模型，也可用于改进现有预训练模型的性能。

Transformer又出新变体∞-former：无限长期记忆，任意长度上下文

You may also like...

openmagic_cn_banner