互联网资讯 / 人工智能 · 2023年12月29日

特斯拉为何坚持纯视觉路线?

近日,特斯拉在中国与媒体分享了其纯视觉方案的理念和研究进展。

坚持视觉感知,利用AI神经网络技术提升辅助驾驶能力

如图1所示,AndRej表示:“我们希望构建一个类似动物视觉皮层的神经网络,模拟大脑的信息输入和输出过程。”他们致力于通过摄像头模拟光线进入视网膜的过程。

特斯拉采用的多任务学习神经网络架构HydRaNets,利用一个主干网络处理来自8个摄像头的原始数据,结合RegNet残差网络和BIFPN算法模型,统一处理不同精度下的各类图像特征,以满足不同神经网络任务的需求。

然而,因该结构处理的是单个摄像头的单帧图像,实际应用中面临诸多瓶颈。因此,他们在此基础上引入了TRansfoRMeR神经网络结构,将原本的二维图像特征转化为多个摄像头拼接而成的三维向量空间特征,从而显著提升了识别率和准确性。

此外,由于仍然是单帧画面,特斯拉需要引入时间和空间维度,以赋予车辆“记忆”功能,以应对诸如“遮挡”和“路牌”等多种场景。最终,他们以视频流的形式提取行驶环境的特征,形成向量空间,使车辆能够快速、准确地判断周围环境,构建出4D向量空间,这些视频形式的特征数据库则用于训练自动驾驶。

需要注意的是,城市自动驾驶与高速自动驾驶存在显著差异,车辆规划模块面临两大挑战:一是行车方案不一定有最优解,可能存在多个局部最优解,意味着在相同驾驶环境下,自动驾驶可选择多种有效解决方案;二是维度较高,车辆不仅需实时反应,还需为未来一段时间内做好规划,评估位置、速度、加速度等信息。

特斯拉通过两个途径解决规划模块的挑战:一是利用离散搜索方式高效解决局部最优解,以每1.5毫秒进行2500次搜索;二是通过连续函数优化解决高维度问题,初步得出全局最优解后,平衡多个维度的需求,例如舒适性和顺畅性,以确定最终规划路径。

除了自身的规划,特斯拉还需“估算”其他物体的规划。他们通过对其他物体的识别及其基础速度、加速度等参数,替其他车辆规划路径,以应对复杂交通情境。

由于全球各地道路状况千变万化,采用离散搜索会消耗大量资源并延长决策时间,因此特斯拉选择结合深度神经网络与蒙特卡洛搜索树的方法,大幅提高决策效率,几乎是数量级的飞跃。

最终,规划模块的整体架构如图5所示,基于纯视觉方案将数据处理为4D向量空间,借助物体识别及共享特征数据,利用深度神经网络寻找全局最优解,并将规划结果交由执行机构执行。

当然,再好的神经网络架构和处理方案,都离不开一个高效且庞大的数据库。在数据从2D向3D、4D转化的过程中,特斯拉拥有约1000人的人工标注团队,及时在4D空间进行标注,并通过向量空间的标注自动映射到不同摄像头的具体画面中,显著增加了数据标注量,但这些仍然远远不够,人工标注的数据量无法满足自动驾驶的训练需求。

由于人类在语义识别方面更具优势,而计算机在几何、三角化、跟踪、重建等领域更为擅长,特斯拉期望创造一个人机“和谐分工”的标注模式。

特斯拉还建立了庞大的自动标注流水线,利用45秒至1分钟的视频和大量传感器数据,交由神经网络进行离线学习,生成可用于训练的标注数据集。

在对可行驶区域如道路、道线和十字路口的识别方面,特斯拉采用了NeRF“神经辐射场”技术,将2D图像转化为3D,用已知的XY坐标预测地面高度,生成无数XYZ坐标点及相应语义信息,形成大量信息点并反向投射到摄像头画面中;随后将道路数据与神经网络识别的画面分割结果进行比较,整体优化所有摄像头的图像;结合时间与空间维度,创建较为完善的重建场景。

通过此技术,不同车辆在同一地点重建的道路信息进行交叉比对,确保所有位置点信息一致,才能作出准确预测。这样形成了一种有效的道路表面标注方法。

这与高精地图截然不同,所有视频片段生成的标注信息只要越来越精确,与视频中的实际道路情况相符,便无需再维护这些数据。

同时,这些技术也能对静态物体进行识别和重建,无论有无纹理都可根据这些3D信息点进行标注,这些标注点对于摄像头识别各种障碍物极为重要。

离线处理这些数据和标注的另一个优势在于,单车网络每次只能对运动物体进行预测,而离线数据则可通晓过去与未来,从而根据确定的数据,忽略遮挡情况,对所有物体的速度、加速度进行预测与优化,进行标注,以便训练网络更准确地判断运动物体,辅助规划模块进行规划。

将这些结合起来,形成对视频数据中所有道路相关及静动态物体的识别、预判和重建,并对其动力学数据进行标注。

这样的标注数据将成为训练自动驾驶神经网络的核心部分。其中一个项目在3个月内利用这些数据成功训练网络,实现毫米波雷达的所有功能并提升准确性,因此决定去掉毫米波雷达。

这验证了这种方法的高度有效性,因此需要庞大的视频数据进行训练。同时,特斯拉开发了“仿真场景技术”,以模拟现实中不常见的“边缘场景”用于自动驾驶培训。

特斯拉已经利用仿真模式训练网络,使用了3亿张图像和50亿个标注,未来还将继续借助此模式解决更多挑战。

综上所述,若要加速提升自动驾驶网络的能力,需要处理海量视频片段和运算。例如,为了去掉毫米波雷达,处理了250万个视频片段,生成超过100亿个标注。而这些技术进步让硬件逐渐成为发展速度的瓶颈。

特斯拉之前的训练硬件由约3000块GPU和近20000个CPU组成,并为了仿真增加了2000多台FSD计算机;后来发展为10000块GPU构成的超级计算机,位列全球第五,但即便如此仍显不足。

因此,特斯拉决定自主研发超级计算机。

“工程学的创举”——D1芯片与Dojo超级计算机

随着数据处理需求的指数级增长,特斯拉提升了训练神经网络的算力,开发了Dojo超级计算机。

特斯拉的目标是实现超高算力的人工智能训练,处理大型复杂的神经网络,同时扩展带宽、降低延迟并节省成本。这要求Dojo超级计算机在空间与时间上达到最佳平衡。

组成Dojo超级计算机的关键是特斯拉自主研发的D1芯片。D1芯片采用分布式结构与7纳米工艺,集成500亿个晶体管和354个训练节点,内部电路长度达到17.7公里,具备超强算力和带宽。

Dojo超级计算机的单个训练模块由25个D1芯片组成。由于每个D1芯片之间无缝连接,邻近芯片间延迟极低,训练模块最大限度保留带宽,结合特斯拉自创的高带宽、低延迟连接器,在不到1立方英尺的体积内,算力高达9PFLOPs(9千万亿次),I/O带宽达到36TB/s。

得益于训练模块的独立运行和无限连接能力,Dojo超级计算机的性能在理论上没有上限,成为不折不扣的“性能野兽”。在实际应用中,特斯拉将120个训练模块组装成ExaPOD,成为全球首屈一指的人工智能训练计算机。与业内其他产品相比,在相同成本下,其性能提升4倍,同能耗下性能提高1.3倍,占用空间减少5倍。

与强大硬件相匹配的是特斯拉针对性开发的分布式系统——DPU(Dojo PRoceSSing UnIT)。DPU是一个可视化交互软件,能够根据需求随时调整规模,高效处理和计算,执行数据建模、存储分配、优化布局与分区扩展等任务。

不久后,特斯拉将开始Dojo超级计算机的首批组装,并在整个超级计算机、芯片和系统上进行进一步优化。对于人工智能技术,马斯克显然还有更远大的追求。他在开场白中打趣道:“我们遇到了一点技术问题,希望未来能用AI来解决”,而在活动结束时,他承诺:“我们将进一步在整个人类世界里畅游”。