智能汽车 · 2024年2月9日 0

华为、特斯拉带头,车企卷入「大模型」军备竞赛

自动驾驶的进程,因为大模型又起波澜

近几自动驾驶近迅猛硬件预埋软件持续迭代的风下,载算增长快速普及,但软件功能进化于算们似乎始接受要经过很时间才能发自动驾驶。

ChatGPT现带给自动驾驶行业很大启示

ChatGPT 作为大语言模型的代过对海多模态数据的大规模自监督学习,借「预训练+微调」的方式,让 AI 可以完复杂自然语言任务甚至过了图灵测试——自动驾驶,被认为是下一个可能实现突破领域

北京智源智能研究院铁军甚至预测,三之内可以实现级别自动驾驶。

目前,在产业很多公司都在「大模型进行探索。一部分大模型商汤发布的日日大模型,毫末智行发布自动驾驶大模型 DRiveGPT——湖·海若;另一部分公司联合线,比如小鹏联合阿里大模型建立自动驾驶智算、斑马智行接入阿里大模型

大模型」目前重

数据标注——特斯拉公司大模型优化数据标注,降低工标注比例成本

仿真优化——提升虚拟训练环境真实性,优化虚拟训练数据

优化感知——利用大模型能力优化多个环节的小模型,提高感知效果

端到端——利用式预训练大模型技术,让自动驾驶模拟类似脑驾驶的能力

大模型如何影响智能驾驶?现在哪些公司团队,已经实践大模型」了?它真的能让无驾驶更快到

01

小模型 VS 大模型

智能驾驶行业经历了一个模型「从小到大」的过程

目前已产的智能驾驶,绝大多数的是模块架构。简而言之,模块是将智能驾驶系统拆分为多个典型任务,并由专门的 AI 模型或模块处理

阶段自动驾驶模型框架主要由感知、规划执行三个部分组成。感知模块就像是的眼睛和耳朵,负责外部环境进行感知;控制模块就像的双和双脚,负责最终的加减速、转向操作;而决规划模块就像的大脑,基于接收到的感知信息进行行为和轨迹

在此架构下,每个大模块可能包含多个小模型的组合。如感知模块可能包含分类追踪定位不同 AI 模型,各司其职。

不过,随着软硬件升级与逐深入自动驾驶对于计算能力和海数据处理能力需求传统各个小模型「堆叠」的方案,已经无法满足自动驾驶的需求。比如,「堆叠」造信息失真以及算浪费,而每个小模型的技术板」也会导致整体解决方案受限。

举个简单例子,小模型就像一个小孩,他非常擅图和,可以快速找到图片的物品或者懂一段故意思。但是,如果这个故或者太复杂,他可能就会不懂或者忘了。

华为、特斯拉带头,车企卷入「大模型」军备竞赛

特斯拉自动驾驶技术架构 | 特斯拉

这个时候,大模型始进入视野。

2021 8 月,特斯拉AI 级总监 AndRej KaRpathy,在特斯拉 AI day 示了一项技术——基于 TRansfoRMeR 的 BEV(鸟瞰视角) 感知方案。相当于10-20 米有一个直升俯视辆与环境,这是大模型技术首次应用自动驾驶领域,也是特斯拉实现纯视觉智能驾驶方案关键

华为百度 Apollo、蔚小理、毫末智行、商汤一众厂商,甚至像平线这样的芯片公司,也都在 BEV+TRansfoRMeR 有所布局。例如华为的 ADS 1.0,据称已实现基于 TRansfoRMeR 的 BEV 架构,而最发布的 ADS 2.0 进一步升级了 GOD 网络,类似于特斯拉的占网络算法

大模型则可以比喻一个大,他非常聪明,可以同时处理许多信息,包括图片、和听音乐。他可以处理的故或音乐,同时处理多个任务。不过,他需要更多时间和精学习处理这些信息

值得注意的是,TRansfoRMeR大模型。它是模型的底座,大模型架构可以基于 TRansfoRMeR

02

大模型时代的数据算法

特斯拉使用 TRansfoRMeR大模型早已经不限于智能驾驶感知领域

目前,智能驾驶已从仅使用模型进行图像感知,使用规则算法方式,转变为感知、融合预测使用模型。

,这是大模型智能驾驶领域最先落地的几个场景

数据标注

自动标注是大模型最直接的应用之一,可以大大降低数据标注成本。海效的数据标注是算法模型的基础。随着智能驾驶的发,激雷达 3D 信息和摄像2D 图像信息增加场景更丰富,自动驾驶的数据标注类型和数不断加。

然而,数据挖掘难度大,数据标注成本。所以,智能驾驶厂商自动标注优化系统效率。例如,特斯拉2018 不断发自动标注技术,从 2D 工标注转为 4D 空间自动标注。随着自动标注技术熟,特斯拉工标注团队规模不断缩小。2021 该团队超过 1000 2022 裁员超过 200

华为、特斯拉带头,车企卷入「大模型」军备竞赛

毫末智行发布的自动驾驶大模型 DRiveGPT——雪湖·海若 | 毫末智行

小鹏汽和毫末智行也相继推自动标注工具。据毫末智行 CEO 顾维灏表示,目前获取线、交参与者和红绿灯信息工标注成本约每张图 5 ,而毫末 DRiveGPT成本仅 0.5 元。

优化仿真

除此之外,自动驾驶需要大数据支持,数据积累将内是自动驾驶的核竞争。目前,数据源主要有真实数据虚拟仿真和影子模式

真实数据外,仿真场景是弥补训练大模型数据不足的重要方式。虚拟仿真AI 场景辆和行信息,对模型进行训练。可于对行的 coRneR case 进行反复模拟和训练,弥补现实场景信息不足的问题

目前仿真场景主要由游戏引擎,基于现实世数据保证仿真场景真实场景的相似,依靠交要素的重组合提高能力。理论,优质仿真可替代实数据,降算法本并提高迭代速率,但逼真的仿真环境构建和许多场景的复现大。

大模型推动仿真场景大幅提升能力帮助提升仿真场景数据应用比例,从而提高自动驾驶模型的迭代速度、缩短发周

比如特斯拉基于虚幻 4 引擎渲染的仿真环境,测试自动驾驶系统在极端情况和复杂环境效果。毫末智行选择与阿里和德清政府合作,将真实导入仿真引擎,于路口场景的调试和验证。

优化小模型

除了数据,在模块算法部署模式下,感知算法和规控算法大模型的加强实现感知精和规控效果提高。例如,大模型作为算法的「老师」,过「蒸馏 (授)」帮小模型实现优异的性能。所谓「蒸馏」,就像老师教,将大模型或多个模型集到的知识迁移到另一个轻级的模型

比如百度将文心大模型能力自动驾驶感知技术结合,提升载端侧模型的感知能力利用半监督方法,充分利 2D 和 3D 数据训练一个感知大模型过在多个环节对小模型进行蒸馏,提高小模型的性能,同时自动标注为小模型定制训练。大模型可以增强距离视觉 3D 感知能力、提多模态感知模型的感知效果。

端到端一体化

端到端的感知决一体算法被认为是自动驾驶算法终局,预测、规划、决都在这个模型里。所谓「端到端」并不是自动驾驶领域独有的说法,本身是深学习的一个概念,英文为「End-to-End(E2E)」,简单说就是一个 AI 模型,只要输入原始数据就可以输出最终结果,与 ChatGPT 类似。

智能驾驶领域,端到端并不是新概念,1988 年世的 ALVINN 自动驾驶试验基于端到端架构,在大校园实现 70kM/h 的自主行驶。目前,许多厂商研发端到端智能驾驶技术,除特斯拉外,还有英伟达和 coMMa.AI

这一驾驶方案更接近真实类驾驶,只需要一个,从眼睛到双手转方向盘、脚踩刹或制动板,整个过程一气呵,关键因素是类的大脑枢神经系统,端到端大模型的作类似于类的大脑枢神经系统。

毫末 DRiveGPT 底层模型,同样采 GPT 这种生式预训练大模型技术,首先过引入大规模驾驶数据进行预训练,然后使用奖励模型 (RewaRd Model) 与 RLHF(类反馈强学习) 技术数据进行学习,对自动驾驶认知决策模型进行持续优化

端到端自动驾驶,只是实现自动驾驶的最理想技术方案。目前,端到端大模型在许多痛点,最大的痛是可解释性差。

03

从 PPT 到落地

然而,大模型智能驾驶的融合并非一蹴而就。

理想汽创始、董事长兼 CEO 李想认为,大模型智能驾驶可以分为三个阶段

第一阶段赋能,也就是智能驾驶,赋能驾驶员,让驾驶更安全、便捷。这个阶段需要进行共驾的过程训练大模型

第二阶段是半机器人。随着越越多的使用辅助驾驶,智能驾驶会形。它可以解决酒驾、疲劳驾驶问题,相当于垂直领域的专家,可以作是真正免费的司

第三阶段是 AGI(人工智能)。行为学习和认知学习会二合为一,大脑和小脑同时具备,器可以独立获取信息,形自主迭代。虽然无法预测这个阶段何时到,但我们对此充满待。

华为、特斯拉带头,车企卷入「大模型」军备竞赛

大模型发展时间线 | 网络

不过,大型模型在智能驾驶领域临着众多挑战:

多模态数据

主要体现在多模态数据、训练和部署几个方面。比如,自动驾驶所需传感器数据包括激光雷达、毫米波雷达、超声波雷达,以及清摄像头、IMU、GPS 以及 V2X 。这些数据不同的坐标系,带有不同的触发时间戳,以及要虑到硬件损坏问题时;同时,需要大场景数据,比如交标志线、交流、行为模型

+芯片难题

部署方面看,大模型需要规格的硬件配置,包含高性能计算能力、大容和低时延等特。但载设备的硬件条件相对有限,无法提供足够的计算资源支撑大模型运行。

具体说,大型模型需要超过 10 亿级的 GPU 计算能力,例如在自然语言处理领域GPT-3 模型就需要数万亿次浮点运算(Tops)的计算。这要求芯片的算至少要在万级 Tops 以上才能够胜任大型模型的计算任务。但是,在部署场景下,芯片的算力往往只有数百 Tops 左右,远达不到大型模型的要求

同时,大型模型需要大的内储模型参数和间状态。例如,在自然语言处理领域的 GPT-3 模型中,需要使 350GB 的内储模型参数。但是,在部署场景下,芯片的内存容通常只有几十 GB。

时延问题

此外,大型模型的部署还需要考虑时延的问题。例如,在自动驾驶场景下,需要对海量数据进行实时处理和分析,因此需要保证模型的推理速度和响应时间。但是,在车载部署场景下,要求模型的推理时延要控制在 10Ms 级别。

总的说,大型模型在智能驾驶领域仍是一个初级探索阶段,需要进行算法优化和硬件进一步改进才能真正落地应用。但它给业界带的期也很大——有望在未来让自动驾驶成为真正的「老司机」。