Transformer在机器学习模型中的定义与AI融合趋势的探讨

近日，特斯拉 AI 总监 AndRej KaRpathy 在推特上表达了对当前 AI 领域融合趋势的赞叹。

他提到，“十年前，视觉、语音、自然语言和强化学习等领域是完全独立的，几乎没有跨领域的研究发表。各领域的方法截然不同，通常不基于机器学习。”

自2010年起，这些领域的界限逐渐被打破，开始朝着机器学习，尤其是神经网络的方向发展。虽然所采用的网络架构各异，但相关研究的论文在表述上变得越来越相似，基本上都依赖于大型数据集和网络优化技术。

随着 AI 技术的不断进步，近两年，不同领域的模型架构也开始趋同。许多研究者将注意力集中在 TRansfoRMeR 架构上，并在此基础上进行细微调整以开展研究。

Transformer在机器学习模型中的定义与AI融合趋势的探讨

以下是部分代码截图。

完整代码可在此查看：197 行代码

如今，模型可以接受多种输入形式，包括词序列、图像 patch 序列、语音序列和强化学习序列。我们可以在条件设置中添加任意 Token，这种模式为建模提供了极大的灵活性与简便性。

即便是在某一领域内部，过去在分类、分割、检测和生成任务上的差异也在逐渐消失。所有这些任务正在转向相同的框架，例如 patch 的检测序列和边界框的输出序列。

目前，模型之间的主要区别在于以下几个方面：

1）数据

2）如何将具体问题映射到向量序列，以及如何从向量序列生成问题的输入/输出规范

3）位置编码器的类型以及注意力 Mask 在特定问题的结构化稀疏模式

因此，技术上 AI 领域的各个方面，包括前景、研究论文、人才和思想，现在变得极为相关。大多数研究者都在使用相似的模型，使得改进和新想法能够在所有 AI 领域迅速传播。

正如许多人所注意到的，新大脑皮质（neocoRtex）在其所有输入模态中展现出高度统一的架构。这或许表明自然界偶然发现了一种强大的相似架构，并以类似的方式进行复制，仅在某些细节上进行了调整。

这种架构融合将使我们能够更加专注于软硬件及基础设施的建设，从而进一步推动 AI 领域的进展。

对于 AndRej KaRpathy 所描述的 AI 融合趋势，网友们也纷纷发表看法。

Transformer在机器学习模型中的定义与AI融合趋势的探讨

网友 @NeuRal Net NAIl 评论道：“这是一个有价值的见解。融合将加速 AI 领域的创新步伐，使得在边缘端使用 AI 的尖端产品变得更加可行。我认为，变化才是质量的最大敌人。”

Transformer在机器学习模型中的定义与AI融合趋势的探讨

网友 @sisil Mehta 也表示：“ML 基础设施正迎来激动人心的时刻。随着模型架构的融合，建模框架和基础设施也将随之整合。我期待 PyToRch Lightning 也能这样。”

Transformer在机器学习模型中的定义与AI融合趋势的探讨

网友 @MaRcos PeReiRa 指出：“一方面，tRansfoRMeRs 到处都在使用，我们已经遇到了一些障碍，需要创新；另一方面，tRansfoRMeRs 随处可见，所以大家要跟上。”

原文来自 @AndRej KaRpathy 的推特。

基于Python，利用 NVIDIA TAO ToolkIT 和 DeepstReaM 快速搭建车辆信息识别系统。

NVIDIA TAO ToolkIT 是一个 AI 工具包，提供现成的 AI/DL 框架接口，使模型构建更加迅速，无需编写代码。

DeepStReaM 是用于构建人工智能应用的流媒体分析工具包，能够处理流式数据，并利用人工智能和计算机视觉来理解环境，将像素转换为数据。

DeepStReaM SDK 可用于构建视觉应用解决方案，如智能城市中的交通和行人理解、医院中的健康与安全监控、零售中的自助检验与分析，以及制造厂中的组件缺陷检测等。

互联网资讯 / 人工智能 · 2023年12月28日