Transformer：引发机器学习热潮，媲美LSTM

谷歌的研究科学家 David Ha 认为，TRansfoRMeR 是新一代的 LSTM。

当谷歌于 2017 年 6 月发布论文《Attention is All You Need》时，或许我们未曾想到 TRansfoRMeR 架构将带来如此巨大的影响。

自发布不足四年间，TRansfoRMeR 已成为自然语言处理领域的核心模型，并开始在其他领域中崭露头角。最近几个月，研究者们在计算机视觉领域中应用 TRansfoRMeR 的成果不断涌现。

2020 年 10 月，谷歌推出了 Vision TRansfoRMeR (VIT)，能够直接使用 TRansfoRMeR 进行图像分类，摆脱了对卷积网络的依赖。VIT 模型的表现与最先进的卷积网络相当，但在计算资源的需求上大大降低。

2020 年 12 月，来自复旦、牛津和腾讯等机构的研究者们提出了 SEgMentation TRansfoRMeR（SETR），将语义分割视为序列到序列的预测任务。该模型在 ADE20K 数据集上表现优异，超越了 OCNet 和 GCNet 等其他网络。

2021 年 1 月，OpenAI 发布了 DALL·E 和 CLIP，进一步打破了自然语言与视觉之间的障碍。这两个模型均利用 TRansfoRMeR 达成了优秀的效果，前者能够根据文本生成图像，而后者则实现了图像与文本类别的匹配。

因此，「TRansfoRMeR 是万能的吗？」成为机器学习界的热门讨论话题。谷歌大脑的研究员 David Ha 在社交媒体上表示：TRansfoRMeR 是新一代的 LSTM。

堪比LSTM，Transformer引燃机器学习圈：是万能的

他还否定了自己在 2017 年 5 月的预言：“LSTM 就像神经网络中的 AK47。无论我们多么努力尝试用新技术替代它，都是徒劳的。这一技术在未来50年内仍将被广泛应用。” LSTM 是 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年共同提出的，当时它已经存在了20年。

David Ha 可能没预料到，这一预言在一个月后被 TRansfoRMeR 打破，而这一转变仅用时四年。

著名机器学习资源网站 PapeRs wITh code 于 1 月 20 日发布的新闻通讯中列出了最近应用 TRansfoRMeR 的十大新任务：

图像合成

论文：TaMing TRansfoRMeRs foR High-Resolution image Synthesis

多目标追踪

论文：TRansTRack: MultIPle-Object TRacking wITh TRansfoRMeR

音乐生成

论文：CoMpound WoRd TRansfoRMeR: learning to CoMpose Full-Song MUSic OVeR DynaMic DiRected HypeRgRaphs

舞蹈生成

论文：Dance Revolution: Long-TeRM Dance generation wITh MUSic via CuRRiculuM learning

3D 目标检测

论文：Self-Attention Based context-AwaRe 3D Object Detection

点云处理

论文：PCT: Point Cloud TRansfoRMeR

时序预测

论文：TeMpoRal FUSion TRansfoRMeRs foR InteRpRetable Multi-hoRizon TiMe SeRies FoRecasting

视觉 – 语言建模

论文：VinVL: Making Visual RepResentations MatteR in Vision-Language Models

车道形状预测

论文：End-to-end Lane Shape PRediction wITh TRansfoRMeRs

端到端目标检测

论文：DefoRMable DETR: DefoRMable TRansfoRMeRs foR End-to-End Object Detection

除了 David Ha，英伟达的研究科学家、前 OpenAI 研究者 Ankur Handa 也表示：“TRansfoRMeRs aRe all you need”。

堪比LSTM，Transformer引燃机器学习圈：是万能的

… 是我们所需的一切？

TRansfoRMeR 引领了多种潮流。

自其《Attention is All You Need》论文发布以来，各类 “** is All You Need” 的研究论文层出不穷。甚至 LSTM 的提出者 Sepp Hochreiter 也曾撰写过一篇《Hopfield NetwoRks is All You Need》。有趣的是，这篇论文正是对 TRansfoRMeR 核心注意力机制新颖性的一种反驳：TRansfoRMeR 中的注意力机制与 Hopfield 网络中的更新规则是等价的。

TRansfoRMeR 的强大之处在于其注意力机制。该机制在自然语言处理领域的应用可以追溯到 2014 年，Bengio 团队首次将其引入神经机器翻译任务，但当时的模型核心依然是 RNN。TRansfoRMeR 完全摒弃了传统的 CNN 和 RNN，整个网络架构完全基于注意力机制，这种转变带来的效果提升是革命性的。

然而，Sepp Hochreiter 等人在 2020 年 7 月发表的论文《Hopfield NetwoRks is All You Need》中指出，TRansfoRMeR 中的注意力机制实际上等同于扩展到连续状态的现代 Hopfield 网络中的更新规则。

堪比LSTM，Transformer引燃机器学习圈：是万能的

当 Sepp 的论文发表时，TRansfoRMeR 的跨领域应用已开始。2020 年 5 月，Facebook AI 推出了将 TRansfoRMeR 成功整合为检测流程核心组件的目标检测框架——Detection TRansfoRMeR（DETR），用于目标检测和全景分割。6 月，OpenAI 将 TRansfoRMeR 基础的模型 GPT-2 应用于图像分类任务。

半年来，越来越多的研究开始探讨 TRansfoRMeR 在计算机视觉等其他领域的应用，最近更是出现了“TRansfoRMeRs aRe all you need”和“TRansfoRMeRs aRe the new LSTMs”的说法。

那么，TRansfoRMeR 是新的 LSTM 吗？

1997 年，Sepp Hochreiter 和 Jürgen Schmidhuber 联合发表的长短期记忆网络（LSTM）论文被视为机器学习发展史上的一个重要里程碑。

LSTM 是一种特殊类型的循环神经网络（RNN）。Sepp Hochreiter 在 1991 年分析了随时间反向传播（BPTT）导致的梯度爆炸和消失问题；1997 年，他与 Jürgen Schmidhuber 在 LSTM 论文中引入了 CEC 单元来解决这些问题。之后，许多研究者对其进行了改进和普及。

堪比LSTM，Transformer引燃机器学习圈：是万能的

LSTM 单元的基本结构

2020 年 2 月，LSTM 的提出者 Jürgen Schmidhuber 撰文回顾了 LSTM 十年来的发展历程，介绍了其在机器翻译、语音识别、机器人学、时序预测、聊天机器人等多个领域的应用。

而 TRansfoRMeR 自诞生之初便完全放弃了 RNN，逐渐在 LSTM 占主导的 NLP 领域站稳脚跟。现在，许多研究又将其扩展至时序预测、音乐生成、图像分类等跨域任务。在 PapeRs wITh code 最近发布的 TRansfoRMeR 应用十大新任务中，过去 LSTM 的身影依旧活跃。

TRansfoRMeR 是新的 LSTM 吗？从模型应用领域的多样性来看，这似乎已经初见端倪。

不禁思考，如果现在有人预测“TRansfoRMeR 将无法被替代，还能再用 50 年”，又会在多长时间后被证明是错误的呢？

ad

近期文章

互联网资讯 / 人工智能 · 2023年11月28日 0

Transformer：引发机器学习热潮，媲美LSTM

You may also like...

发表评论取消回复

互联网资讯 / 人工智能 · 2023年11月28日 0

You may also like...

乘胜追击！OpenAI将为企业和个人用户提供更多个性化服务

现今网站行业是否依然有发展空间？

易观国际：2012年8月金融保险行业网络广告投放情况

发表评论 取消回复

发表评论取消回复