互联网资讯

特斯拉自研AI超算DOJO与D1芯片:全球最快AI训练计算机

2024年4月2日 · admin
openmagic ad

全球最快的AI训练速度王座再度易主,特斯拉在自研芯片与超算领域取得突破性进展。

在Autopilot等自动驾驶相关任务的训练体系中,特斯拉自研的AI训练芯片D1,以及相关的AI超级计算机Dojo ExaPod,首秀就跃居全球前列。

马斯克发布机器人,“钢铁侠”那种!特斯拉推出全球超快AI计算机

除了核心产品,特斯拉还推出了另一款新品:车载机器人,整合了自研芯片与软硬件系统,与传统汽车定位有所不同,更接近于人型协作形态。

马斯克发布机器人,“钢铁侠”那种!特斯拉推出全球超快AI计算机

D1芯片发布与技术要点

在发布会上,特斯拉宣布D1是专为高效AI训练而设计的处理器。官方强调需要一款极高性能的计算平台来支持整套自动驾驶系统的训练,因此D1应运而生。

马斯克发布机器人,“钢铁侠”那种!特斯拉推出全球超快AI计算机

D1芯片采用7nm工艺,单芯片FP32算力达到22.6 TOPS,BF16算力为362 TOPS。其定位不仅是单兵作战能力,更强调组件之间的无缝融合,能够组成大规模的计算阵列以提升训练效率。

马斯克发布机器人,“钢铁侠”那种!特斯拉推出全球超快AI计算机

在公开展示中,D1的性能对比显示其在某些场景下优于同级别的通用GPU或专用AI加速器。

“PuRe learning MacHine”是对D1芯片的称呼,强调其在纯学习任务中的高效性。

此外,D1在群体协同计算方面的潜力也被提及:多片D1芯片可互联,形成更大规模的训练阵列。

马斯克发布机器人,“钢铁侠”那种!特斯拉推出全球超快AI计算机

Dojo:专注AI训练的分布式超算

Dojo的核心是一个通过网络结构连接的分布式计算架构,具备大型计算平面、高带宽、低延迟,以及分区和映射的大规模网络能力。

Dojo 的设计目标是将AI训练聚焦于自动驾驶算法的训练任务,与其他用途的超算形成区分。其首秀基线版本在单机端已具备强大算力,未来将通过扩展模块实现更大规模的训练阵列。

马斯克发布机器人,“钢铁侠”那种!特斯拉推出全球超快AI计算机

公开数据显示,早期版本的Dojo在总算力、读写速度等方面已达到行业领先水平,且后续版本预计将实现显著性能提升。

Dojo 的演进方向包括扩展“心脏”оƬ、形成更大规模的训练阵列,以及提升训练吞吐与能效比。

马斯克发布机器人,“钢铁侠”那种!特斯拉推出全球超快AI计算机

ExaPOD:用超大规模训练模块打造极致性能

当下的终极阶段是ExaPOD,它由多达120个训练模块组成,合计超过3000个D1芯片,覆盖超过百万级的训练节点,理论算力达到1.1EFLOP,并在单位功耗下实现更高的能效比。

马斯克发布机器人,“钢铁侠”那种!特斯拉推出全球超快AI计算机

ExaPOD 的设计强调高效能与低碳排放的结合,相关指标在同级别超算中处于领先地位。官方也指出,Dojo 与ExaPOD共同构成了全球最快的AI训练计算体系。

马斯克发布机器人,“钢铁侠”那种!特斯拉推出全球超快AI计算机

面向未来:视觉方案与多摄像头架构

在对外沟通中,特斯拉AI技术主管介绍了以视觉为核心的自动驾驶方案。该方案强调将自动驾驶系统视作一个具备“眼睛、神经、脑部”的生物系统,通过多摄像头输入实现更高的识别与决策能力。

当前体系包含八个摄像头,背后是被称为HydRaNets的多任务学习神经网络,能够同时处理目标检测、交通标志识别、车道预测等任务。通过对不同数据的特征提取与参数调优,提升整体系统的鲁棒性与迭代速度。

马斯克发布机器人,“钢铁侠”那种!特斯拉推出全球超快AI计算机

多摄像头方案相比单摄像头在识别率上具备明显优势,这也是实现FSD敏捷开发、快速迭代的关键因素之一。

接下来,相关演示展示了从摄像头校准到缓存、队列、优化等环节的持续简化与优化过程,强调 system-level 的协同提升。 马斯克发布机器人,“钢铁侠”那种!特斯拉推出全球超快AI计算机

特斯拉也对比了单摄像头与多摄像头方案,在相同场景下多摄像头方案通常表现更优。车辆上的8个摄像头会输出多分辨率的图像,供不同任务的神经网络使用,驱动整个自动驾驶系统的决策过程。

马斯克发布机器人,“钢铁侠”那种!特斯拉推出全球超快AI计算机

关于未来,官方表示D1芯片与Dojo会持续演进,进一步提升训练效率、能效与扩展性,推动自动驾驶训练能力进入新的阶段。

马斯克发布机器人,“钢铁侠”那种!特斯拉推出全球超快AI计算机