特斯拉宣布,从2022年10月开始,所有在北美、欧洲和中东生产的Model 3和Model Y将不再配备超声波雷达,转而完全依赖Tesla Vision来实现Autopilot、FSD和主动安全功能。此外,2023年起交付的Model X和Model S也将不再装备超声波雷达。这一决定标志着特斯拉将采用仅基于摄像头的纯视觉自动驾驶方案。

这一举措让业界对自动驾驶解决方案的讨论再度升温,尤其是在纯视觉与视觉+传感器融合之间的优劣争论。那么,究竟情况如何呢?
首先,我们需要理解自动驾驶的基本逻辑,即由感知、决策和执行三个步骤构成。对周围环境的精准感知是所有决策的基础,也是自动驾驶汽车安全的保障。在获取周围物体的位置、速度、方向、路面特征、路缘石位置以及交通信号等信息后,自动驾驶系统将开始进行计划和控制:首先预测其他移动物体在短时间内的行为,然后根据整体计划(例如通往目的地的路线)制定自身行动,最后指示车辆如何行动。
从这一逻辑出发,结合业界对视觉解决方案的理解,我们认为,纯视觉方案更接近人类的驾驶方式。
然而,既然纯视觉方案更符合人类的驾驶逻辑,为何仍会存在视觉+传感器融合的派别呢?
尽管纯视觉解决方案的成本相对较低,更接近人类驾驶,并通过高分辨率和高帧率的成像技术提供更丰富的环境信息,但摄像头在捕捉环境时容易受到光照条件的影响,且纯视觉方案对图像处理高度依赖于训练,这使得环境认知存在“死角”。
相比之下,融合方案则结合了摄像头、毫米波雷达和激光雷达等设备,共同收集周围环境信息。激光雷达能够提供更深层次的空间信息,使对物体的位置、距离和大小的感知更加精确,同时由于其自发光特性,不受环境光的影响。因此,融合方案有效克服了纯视觉的不足。
不过,从技术角度来看,融合方案也存在短板。
马斯克对此曾做过解释,他指出,纯视觉方案在使用显式光子计算时,通常比雷达与视觉的组合要优越,因为后者引入了许多不确定性——当雷达和视觉的感知结果不一致时,很难判断应该相信哪一方。马斯克的观点并非没有依据。
例如,特斯拉曾遭用户诟病的“幽灵刹车”现象就是一个典型案例。前AI项目负责人安德烈·卡帕西公开描述,当车辆即将驶入桥下时,毫米波雷达检测到前方有一个静止物体(实际上是桥),系统在等待视觉系统确认后,错误地将其视为静止目标并进行了刹车。在此过程中,视觉系统可能曾几次报告前方车辆减速(但不足以引发刹车),最终将“减速车辆”和“静态物体”关联在一起,从而导致了幽灵刹车的出现。
根据特斯拉的分析,“幽灵刹车”现象的根本原因在于毫米波雷达影响了视觉系统的判断。
需要指出的是,尽管特斯拉取消了超声波雷达,但他们将启动基于视觉的Occupancy NetwoRk,以实现Autopilot的高清空间定位、更远的可见性,以及对对象的识别和区分能力,目前这一功能仅在FSD测试版中可用。
此外,特斯拉还构建了一个多任务系统架构(HydRaNets),具备多任务学习的最新实践和巨大潜力。特斯拉庞大的用户群体也为智能AI的训练提供了丰富的数据支持。
显然,特斯拉在探索和创新纯视觉解决方案方面从未停步。
与此同时,马斯克并非如业内普遍认为的那样,始终坚持纯视觉解决方案。近期,有消息称特斯拉向美国联邦通信委员会FCC提交了毫米波雷达的相关材料,这可能意味着特斯拉正在设计新型毫米波雷达。根据提交的文件,这种高分辨率雷达将用于成像,并与摄像头结合应用于自动驾驶的探测方案。
从市场和用户的角度来看,无论是特斯拉的纯视觉方案,还是视觉与传感器融合的方案,都曾在实际情况下面临风险和规避风险的挑战,这表明自动驾驶技术在取得成效的同时,依然需要不断创新和改进。
