智能汽车 · 2024年2月9日

车企在自动驾驶领域的模型竞争

自动驾驶的进程因大模型的出现而受到新一轮关注。

近年来,自动驾驶技术发展迅速,随着硬件的快速普及与软件的持续迭代,车载算力大幅增长。然而,软件端的功能发展却滞后于算力的提升,导致人们开始意识到实现全面自动驾驶仍需较长时间。

ChatGPT的问世为自动驾驶行业带来了新的启示。

作为大语言模型的代表,ChatGPT通过对海量多模态数据的自监督学习,结合「预训练+微调」的方法,使得AI能够完成复杂的自然语言处理任务,甚至通过了图灵测试。自动驾驶被认为是下一个可能实现重大突破的领域。

北京智源人工智能研究院院长黄铁军预测,未来三年内可实现高级别自动驾驶。

目前,许多企业正在探索「大模型上车」的可能性。一部分公司选择自建大模型,如商汤发布的日日新大模型和毫末智行推出的自动驾驶生成式大模型 DRiveGPT——雪湖·海若;另一部分则通过合作来建立大模型,例如小鹏汽车与阿里合作建设自动驾驶智算中心、斑马智行接入阿里大模型等。

「大模型上车」的重点进展包括:

  • 数据标注——特斯拉等公司通过大模型优化数据标注,降低人工标注的比例和成本;
  • 仿真优化——提升虚拟训练环境的真实性,优化虚拟训练数据;
  • 优化感知——利用大模型的能力,优化多个环节的小模型,提高感知效果;
  • 端到端——采用生成式预训练大模型技术,使自动驾驶模拟人脑的驾驶能力。

大模型将如何影响智能驾驶?哪些公司和团队已经开始实践「大模型上车」?它能否加速无人驾驶的到来?

小模型与大模型的对比

智能驾驶行业经历了一个从小模型到大模型的转变过程。

目前量产的智能驾驶系统大多数采用模块化架构,模块化即将智能驾驶系统拆分为多个典型任务,分别由专门的AI模型或模块处理。

现阶段的自动驾驶模型框架主要由感知、规划决策和执行三个部分构成。感知模块类似于人类的眼睛和耳朵,负责外部环境的感知;控制模块则像人的双手和双脚,负责加减速、转向等操作;决策规划模块则相当于人类的大脑,基于感知信息进行行为决策和轨迹生成。

在这一架构下,每个大模块可能包含多个小模型的组合。例如,感知模块可能由分类、追踪和定位等不同AI模型组成,各自完成特定任务。

然而,随着软硬件的升级,自动驾驶对计算能力和数据处理能力的需求大幅提升,传统的小模型「堆叠」方案已无法满足城市自动驾驶的要求。堆叠可能导致信息失真和算力浪费,而每个小模型的技术限制也会影响整体解决方案。

举个简单的比喻,小模型就像一个小孩,擅长看图和听故事,能够快速找到图片中的物品或理解故事的意思,但面对复杂或冗长的故事时,可能会感到困惑或忘记。

华为、特斯拉带头,车企卷入「大模型」军备竞赛

此时,大模型开始引起业界的关注。

2021年8月,特斯拉的AI高级总监Andrej Karpathy在特斯拉AI日上展示了一项新技术——基于Transformer的BEV(鸟瞰视角)感知方案。这一技术标志着大模型首次应用于自动驾驶领域,也成为特斯拉实现纯视觉智能驾驶方案的关键。

华为、百度Apollo、蔚来、小鹏及毫末智行等厂商,以及地平线等芯片公司,都在BEV与Transformer方面有所布局。例如,华为的ADS 1.0已实现基于Transformer的BEV架构,最新发布的ADS 2.0进一步升级了GOD网络,类似于特斯拉的占用网络算法。

而大模型则可比喻为一个成年人,能够同时处理大量信息,包括图像、故事和音乐等,且具备处理复杂任务的能力,但需要更多时间和精力来学习和处理这些信息。

需要指出的是,Transformer并不等同于大模型,它是构建大模型的基础。

大模型时代的数据与算法

在特斯拉使用Transformer后,大模型的应用已经不再局限于智能驾驶感知领域。

当前,智能驾驶已从单一的图像感知与规则算法,转变为全面利用模型进行感知、融合和预测。

以下是大模型在智能驾驶领域落地的一些场景:

数据标注

自动标注是大模型最直接的应用之一,能显著降低数据标注成本。高效的海量数据标注是算法模型的基础。随着智能驾驶的发展,激光雷达的3D点云信息和摄像头采集的2D图像信息逐渐增多,导致道路场景更加复杂,数据标注的类型和数量也持续增加。

然而,数据挖掘的难度较高,标注成本也相对较高。因此,智能驾驶厂商通过自动标注来提升效率。例如,特斯拉自2018年起不断发展自动标注技术,从2D人工标注转向4D空间自动标注。随着自动标注技术的成熟,特斯拉的人工标注团队规模不断缩小,从2021年的超过1000人,裁员超过200人。

华为、特斯拉带头,车企卷入「大模型」军备竞赛

小鹏汽车和毫末智行也推出了各自的自动标注工具。毫末智行CEO顾维灏表示,目前人工标注车道线、交通参与者和红绿灯信息的成本约为每张图5元,而毫末的DRiveGPT则仅需0.5元。

优化仿真

此外,自动驾驶需要大量的数据支持,而数据的积累将长期是其核心竞争点。目前,数据主要来源于真实数据、虚拟仿真和影子模式。

除了真实数据外,仿真场景是弥补训练大模型数据不足的重要方式。虚拟仿真通过AI生成道路场景、车辆和行人等信息,进行模型训练。这种方法可用于反复模拟和训练行车采集的边缘案例,以弥补现实场景数据的不足。

目前,仿真场景主要由游戏引擎生成,基于现实世界数据确保仿真场景与真实环境的相似度,并通过重新组合交通要素来提高泛化能力。理论上,优质的仿真可替代实车数据的收集,降低算法构建成本并加快迭代速度,但构建真实的仿真环境和复现长尾场景的难度较大。

大模型有望推动仿真场景的泛化能力显著提升,帮助主机厂提高仿真数据的应用比例,从而加速自动驾驶模型的迭代速度,缩短开发周期。

例如,特斯拉基于虚幻4引擎渲染的仿真环境,用于测试自动驾驶系统在极端情况下的表现。毫末智行则选择与阿里和德清政府合作,将真实交通流导入仿真引擎,以便进行路口场景的调试和验证。

优化小模型

除了数据层面,在模块化的算法部署模式中,感知算法与规控算法可以通过大模型的强化提高感知精度和规控效果。例如,大模型可以作为车端算法的「老师」,通过「蒸馏」帮助小模型实现更好的性能。「蒸馏」可以理解为老师教学生,将大模型或多个模型集成的知识迁移到轻量级模型上。

例如,百度将文心大模型与自动驾驶感知技术结合,提升车载端模型的感知能力。百度利用半监督的方法,充分利用2D和3D数据训练感知大模型。通过在多个环节对小模型进行蒸馏,提升小模型的性能,同时通过自动标注为小模型提供定制化训练。大模型能够增强远距离视觉的3D感知能力,提高多模态感知模型的效果。

端到端一体化

端到端的感知决策一体化算法被视为自动驾驶算法的最终目标,预测、规划、决策都集中在一个模型中。所谓「端到端」并非自动驾驶领域特有的术语,而是深度学习的一个基本概念。简单来说,就是一个AI模型只需输入原始数据即可输出最终结果,类似于ChatGPT。

在智能驾驶领域,端到端并不是新概念,1988年问世的ALVINN自动驾驶试验车便基于端到端架构,在校园中实现最高70km/h的自主行驶。目前,许多厂商正在研发端到端的智能驾驶技术,除了特斯拉,还有英伟达和coMMa.AI等。

这种驾驶方式更接近于真实的人类驾驶,只需一个人操作,从视觉感知到手脚控制,整个过程一气呵成,关键在于人类大脑的中枢神经系统,端到端大模型的作用类似于这个系统。

毫末的DRiveGPT底层模型同样采用生成式预训练大模型技术,首先通过引入大规模驾驶数据进行预训练,然后利用奖励模型与人类反馈强化学习技术对驾驶数据进行强化学习,不断优化自动驾驶的认知决策模型。

端到端自动驾驶是实现自动驾驶的理想技术方案之一。目前,端到端大模型仍面临诸多挑战,其中最大的问题是可解释性不足。

从概念到落地

然而,大模型与智能驾驶的结合并非一蹴而就。

理想汽车创始人、董事长兼CEO李想认为,大模型与智能驾驶的融合可以分为三个阶段:

第一阶段是赋能,即智能辅助驾驶,增强驾驶员的安全性与便捷性。这个阶段需要更多的技术支撑。