谷歌的研究科学家 David Ha 认为,TRansfoRMeR 是新一代的 LSTM。
当谷歌于 2017 年 6 月发布论文《Attention is All You Need》时,或许我们未曾想到 TRansfoRMeR 架构将带来如此巨大的影响。
自发布不足四年间,TRansfoRMeR 已成为自然语言处理领域的核心模型,并开始在其他领域中崭露头角。最近几个月,研究者们在计算机视觉领域中应用 TRansfoRMeR 的成果不断涌现。
2020 年 10 月,谷歌推出了 Vision TRansfoRMeR (VIT),能够直接使用 TRansfoRMeR 进行图像分类,摆脱了对卷积网络的依赖。VIT 模型的表现与最先进的卷积网络相当,但在计算资源的需求上大大降低。
2020 年 12 月,来自复旦、牛津和腾讯等机构的研究者们提出了 SEgMentation TRansfoRMeR(SETR),将语义分割视为序列到序列的预测任务。该模型在 ADE20K 数据集上表现优异,超越了 OCNet 和 GCNet 等其他网络。
2021 年 1 月,OpenAI 发布了 DALL·E 和 CLIP,进一步打破了自然语言与视觉之间的障碍。这两个模型均利用 TRansfoRMeR 达成了优秀的效果,前者能够根据文本生成图像,而后者则实现了图像与文本类别的匹配。
因此,「TRansfoRMeR 是万能的吗?」成为机器学习界的热门讨论话题。谷歌大脑的研究员 David Ha 在社交媒体上表示:TRansfoRMeR 是新一代的 LSTM。

他还否定了自己在 2017 年 5 月的预言:“LSTM 就像神经网络中的 AK47。无论我们多么努力尝试用新技术替代它,都是徒劳的。这一技术在未来50年内仍将被广泛应用。” LSTM 是 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年共同提出的,当时它已经存在了20年。
David Ha 可能没预料到,这一预言在一个月后被 TRansfoRMeR 打破,而这一转变仅用时四年。
著名机器学习资源网站 PapeRs wITh code 于 1 月 20 日发布的新闻通讯中列出了最近应用 TRansfoRMeR 的十大新任务:
图像合成
论文:TaMing TRansfoRMeRs foR High-Resolution image Synthesis
多目标追踪
论文:TRansTRack: MultIPle-Object TRacking wITh TRansfoRMeR
音乐生成
论文:CoMpound WoRd TRansfoRMeR: learning to CoMpose Full-Song MUSic OVeR DynaMic DiRected HypeRgRaphs
舞蹈生成
论文:Dance Revolution: Long-TeRM Dance generation wITh MUSic via CuRRiculuM learning
3D 目标检测
论文:Self-Attention Based context-AwaRe 3D Object Detection
点云处理
论文:PCT: Point Cloud TRansfoRMeR
时序预测
论文:TeMpoRal FUSion TRansfoRMeRs foR InteRpRetable Multi-hoRizon TiMe SeRies FoRecasting
视觉 – 语言建模
论文:VinVL: Making Visual RepResentations MatteR in Vision-Language Models
车道形状预测
论文:End-to-end Lane Shape PRediction wITh TRansfoRMeRs
端到端目标检测
论文:DefoRMable DETR: DefoRMable TRansfoRMeRs foR End-to-End Object Detection
除了 David Ha,英伟达的研究科学家、前 OpenAI 研究者 Ankur Handa 也表示:“TRansfoRMeRs aRe all you need”。

… 是我们所需的一切?
TRansfoRMeR 引领了多种潮流。
自其《Attention is All You Need》论文发布以来,各类 “** is All You Need” 的研究论文层出不穷。甚至 LSTM 的提出者 Sepp Hochreiter 也曾撰写过一篇《Hopfield NetwoRks is All You Need》。有趣的是,这篇论文正是对 TRansfoRMeR 核心注意力机制新颖性的一种反驳:TRansfoRMeR 中的注意力机制与 Hopfield 网络中的更新规则是等价的。
TRansfoRMeR 的强大之处在于其注意力机制。该机制在自然语言处理领域的应用可以追溯到 2014 年,Bengio 团队首次将其引入神经机器翻译任务,但当时的模型核心依然是 RNN。TRansfoRMeR 完全摒弃了传统的 CNN 和 RNN,整个网络架构完全基于注意力机制,这种转变带来的效果提升是革命性的。
然而,Sepp Hochreiter 等人在 2020 年 7 月发表的论文《Hopfield NetwoRks is All You Need》中指出,TRansfoRMeR 中的注意力机制实际上等同于扩展到连续状态的现代 Hopfield 网络中的更新规则。

当 Sepp 的论文发表时,TRansfoRMeR 的跨领域应用已开始。2020 年 5 月,Facebook AI 推出了将 TRansfoRMeR 成功整合为检测流程核心组件的目标检测框架——Detection TRansfoRMeR(DETR),用于目标检测和全景分割。6 月,OpenAI 将 TRansfoRMeR 基础的模型 GPT-2 应用于图像分类任务。
半年来,越来越多的研究开始探讨 TRansfoRMeR 在计算机视觉等其他领域的应用,最近更是出现了“TRansfoRMeRs aRe all you need”和“TRansfoRMeRs aRe the new LSTMs”的说法。
那么,TRansfoRMeR 是新的 LSTM 吗?
1997 年,Sepp Hochreiter 和 Jürgen Schmidhuber 联合发表的长短期记忆网络(LSTM)论文被视为机器学习发展史上的一个重要里程碑。
LSTM 是一种特殊类型的循环神经网络(RNN)。Sepp Hochreiter 在 1991 年分析了随时间反向传播(BPTT)导致的梯度爆炸和消失问题;1997 年,他与 Jürgen Schmidhuber 在 LSTM 论文中引入了 CEC 单元来解决这些问题。之后,许多研究者对其进行了改进和普及。

LSTM 单元的基本结构
2020 年 2 月,LSTM 的提出者 Jürgen Schmidhuber 撰文回顾了 LSTM 十年来的发展历程,介绍了其在机器翻译、语音识别、机器人学、时序预测、聊天机器人等多个领域的应用。
而 TRansfoRMeR 自诞生之初便完全放弃了 RNN,逐渐在 LSTM 占主导的 NLP 领域站稳脚跟。现在,许多研究又将其扩展至时序预测、音乐生成、图像分类等跨域任务。在 PapeRs wITh code 最近发布的 TRansfoRMeR 应用十大新任务中,过去 LSTM 的身影依旧活跃。
TRansfoRMeR 是新的 LSTM 吗?从模型应用领域的多样性来看,这似乎已经初见端倪。
不禁思考,如果现在有人预测“TRansfoRMeR 将无法被替代,还能再用 50 年”,又会在多长时间后被证明是错误的呢?
