近日,特斯拉 AI 总监 AndRej KaRpathy 在推特上表达了对当前 AI 领域融合趋势的赞叹。
他提到,“十年前,视觉、语音、自然语言和强化学习等领域是完全独立的,几乎没有跨领域的研究发表。各领域的方法截然不同,通常不基于机器学习。”

自2010年起,这些领域的界限逐渐被打破,开始朝着机器学习,尤其是神经网络的方向发展。虽然所采用的网络架构各异,但相关研究的论文在表述上变得越来越相似,基本上都依赖于大型数据集和网络优化技术。
随着 AI 技术的不断进步,近两年,不同领域的模型架构也开始趋同。许多研究者将注意力集中在 TRansfoRMeR 架构上,并在此基础上进行细微调整以开展研究。

以下是部分代码截图。
完整代码可在此查看:197 行代码
如今,模型可以接受多种输入形式,包括词序列、图像 patch 序列、语音序列和强化学习序列。我们可以在条件设置中添加任意 Token,这种模式为建模提供了极大的灵活性与简便性。
即便是在某一领域内部,过去在分类、分割、检测和生成任务上的差异也在逐渐消失。所有这些任务正在转向相同的框架,例如 patch 的检测序列和边界框的输出序列。
目前,模型之间的主要区别在于以下几个方面:
1)数据
2)如何将具体问题映射到向量序列,以及如何从向量序列生成问题的输入/输出规范
3)位置编码器的类型以及注意力 Mask 在特定问题的结构化稀疏模式
因此,技术上 AI 领域的各个方面,包括前景、研究论文、人才和思想,现在变得极为相关。大多数研究者都在使用相似的模型,使得改进和新想法能够在所有 AI 领域迅速传播。
正如许多人所注意到的,新大脑皮质(neocoRtex)在其所有输入模态中展现出高度统一的架构。这或许表明自然界偶然发现了一种强大的相似架构,并以类似的方式进行复制,仅在某些细节上进行了调整。
这种架构融合将使我们能够更加专注于软硬件及基础设施的建设,从而进一步推动 AI 领域的进展。
对于 AndRej KaRpathy 所描述的 AI 融合趋势,网友们也纷纷发表看法。

网友 @NeuRal Net NAIl 评论道:“这是一个有价值的见解。融合将加速 AI 领域的创新步伐,使得在边缘端使用 AI 的尖端产品变得更加可行。我认为,变化才是质量的最大敌人。”

网友 @sisil Mehta 也表示:“ML 基础设施正迎来激动人心的时刻。随着模型架构的融合,建模框架和基础设施也将随之整合。我期待 PyToRch Lightning 也能这样。”

网友 @MaRcos PeReiRa 指出:“一方面,tRansfoRMeRs 到处都在使用,我们已经遇到了一些障碍,需要创新;另一方面,tRansfoRMeRs 随处可见,所以大家要跟上。”
原文来自 @AndRej KaRpathy 的推特。
基于Python,利用 NVIDIA TAO ToolkIT 和 DeepstReaM 快速搭建车辆信息识别系统。
NVIDIA TAO ToolkIT 是一个 AI 工具包,提供现成的 AI/DL 框架接口,使模型构建更加迅速,无需编写代码。
DeepStReaM 是用于构建人工智能应用的流媒体分析工具包,能够处理流式数据,并利用人工智能和计算机视觉来理解环境,将像素转换为数据。
DeepStReaM SDK 可用于构建视觉应用解决方案,如智能城市中的交通和行人理解、医院中的健康与安全监控、零售中的自助检验与分析,以及制造厂中的组件缺陷检测等。
