智能汽车

DriveGPT：自动驾驶生成式大模型发布

2024年4月6日 · admin

在 AI 日活动上，HAOMO 发布了业内首个自动驾驶生成式大模型 DriveGPT，中文名“雪湖•海若”。据介绍，DriveGPT 将重塑汽车智能化技术路线，首发车型为新摩卡 DHT-PHEV，即将量产上市。

行业高层表示，2023 年智驾产品进入爆发期，大模型在车端落地应用逐步提升，用户使用频率与满意度成为产品竞争力的关键指标。

DriveGPT 通过引入驾驶数据建立 RLHF（人类反馈强化学习）技术，对自动驾驶认知决策模型进行持续优化，当前阶段主要解决认知决策问题，终极目标为实现端到端自动驾驶。

目前，DriveGPT 雪湖•海若的模型架构与参数规模均有提升，参数规模达到 1200 亿， pretrained 阶段引入 4000 万公里量产车驾驶数据，RLHF 阶段引入 5 万段人工精选的困难场景接管 ClIPs。

底层模型采用 GPT 生成式预训练框架。与 ChatGPT 的文本输入输出不同，DriveGPT 的输入是感知融合后的文本序列，输出是自动驾驶场景文本序列，完成场景 Token 化，形成“Drive Language”，实现自车决策规控、障碍物预测与决策逻辑链输出等任务。

DriveGPT 雪湖•海若具备以下三大能力：

1. 按概率生成多条场景序列，形成全局场景与未来可能实际情况的序列；

2. 在所有场景序列出现后，量化自车行为轨迹信息，生成未来轨迹；

3. 轨迹信息需可解释，GPT 模型在对话与推理方面的优势使其能够输出完整的决策逻辑链。

此外，系统还具备升级算力的能力。2023 年发布的行业智算中心升级了三大能力，进一步支持 DriveGPT 的算力需求。

首要提升包括：与火山引擎联合建立全套大模型训练保障框架，实现异常任务分钟级捕获与恢复，确保千卡任务持续训练数月不出错，保障训练稳定性；

其次，开发以真实数据回传为核心的增量学习技术，构建持续学习系统与任务级弹性伸缩调度器，分钟级资源调度，集群利用率高达 95%；

最后，通过提升数据吞吐量降本增效，结合外部算子库实现算子融合，端到端吞吐提升显著。

DriveGPT 的实现过程包括通过量产驾驶数据进行初始模型训练，随后以驾驶接管数据完成反馈模型训练，再通过强化学习持续优化初始模型，形成对认知决策的持续提升。

DriveGPT 雪湖•海若的关键设计之一是场景的 Token 化表达，称为 Drive Language。

同时，模型将根据 Drive Language 的输入提示以及场景库的决策样本进行训练，学习推理关系，将完整驾驶策略拆分为动态识别过程，输出可理解、可解释的推理逻辑链。

未来，该技术有望逐步应用于城市导航、路线推荐、智能陪练以及脱困场景。随着 DriveGPT 的落地，车辆的行为将更加安全、动作更自然、逻辑更清晰，用户对智能产品的信任度也将提升，因为车辆行为更加可预期、可理解。

在数据应用方面，目前形成了高性价比的 4D ClIPs 驾驶场景识别方案。行业标注成本显著下降：单张图片行业标注约 5 元，而当使用 DriveGPT 场景识别服务时，成本降至 0.5 元，整张图片标注成本仅为行业的 1/10。未来计划逐步向行业开放场景识别服务，降低数据成本、提升数据质量，推动自动驾驶技术的快速发展。

DriveGPT 雪湖•海若现已对外开放，限量首批客户落地合作，参与方包括多所高校、企业及科技公司，成果将首先在搭载该模型的新摩卡 DHT-PHEV 上落地。

相关方表示，DriveGPT 雪湖•海若将携手生态伙伴率先探索智能驾驶、场景识别、驾驶行为验证与困难场景脱困等四大应用能力。