互联网资讯

基于模型的强化学习在混合交通流避撞中的应用

2024年4月7日 · admin
openmagic ad

本文提出一种基于模型的强化学习(RL)系统,部署在网联自动驾驶车辆(CAV)上,用以在混合交通流中预测并避免人类驾驶汽车(HDV)引发的碰撞。系统结合基于深度学习的运动预测模型与通过模型预测控制(MPC)实现的快速轨迹规划,属于端到端的数据驱动方法,且不需要事先给定车辆动力学的物理环境先验。

在实验方面,系统在 CARLA 模拟器中进行了多场景训练与测试,覆盖潜在碰撞情形。研究目标是实现一个可广泛部署于不同车型的通用方法,提升在网联自动驾驶场景中的安全性与鲁棒性。

混合交通流的研究对象包括 CAV、HDV 以及网联人类驾驶车辆(CHDV),这是一个近年来较少被系统性研究的方向。

基于模型的 RL 利用数据来估计状态转移模型,并据此进行规划。这种组合兼具数据/训练效率与模型不可知性的优点,可在多场景下实现稳定迁移。

通常用于 AV 轨迹规划的基于模型 RL 方法包含两个核心模块:状态预测和路径规划。状态预测作为对环境的估计,解决从历史信息推断未来状态的任务,即根据历史轨迹“预测”周围目标在未来时刻的状态分布。

在该研究中,状态预测模块采用神经网络结构,评估了三种模型:三层全连接神经网络(3-layer FCN)、单层长短期记忆网络(LSTM)以及单层线性回归(linear regression)。鉴于周围车辆的动态变化,采用分散预测模式,即每个智能体拥有独立的状态预测模型,而非集中化预测。

路径规划则在状态预测之上进行。由于预测并非完美,规划模块需要稳健地产出安全路径,以抑制误差传播,并且能够适应高动态场景,尤其是新智能体出现时的情况。

MPC 是一种常用的通用控制方法,符合上述两个标准:在每个时间步重新规划,同时执行当前最优轨迹的第一步。这种逐步评估动作可行性的机制使其能够应对快速变化的场景。

在传统 MPC 中,规划问题通常需要具有物理环境模型的复杂优化。基于模型 RL 的设置则将 MPC 与数据驱动的状态预测模块结合,用一个快速、简单的规划算法替代复杂优化,具有数据高效、模型可解释、稳定以及跨场景迁移等优点。

MPC 的规划流程通常包括四个步骤:
(1)在每个时间步生成序列,序列包含若干动作;
(2)对每条轨迹,将序列中的动作逐步输入状态预测模型,计算未来状态与成本;
(3)汇总各轨迹的成本;
(4)选择累积成本最低的轨迹,执行其第一步动作。

端到端算法的总体流程如下所示:

在混合交通流中网联自动驾驶车如何避撞:一个基于模型的强化学习方法

整个系统分为三个主要阶段:预热阶段(数据收集)、训练阶段(估计状态预测模型)以及路径规划阶段(避免碰撞)。这一过程遵循基于模型 RL 的循环:收集经验、估计模型、用估计模型进行规划。测试阶段的经验也可被加入到回放内存中,以便在部署后继续改进模型。

示意图显示了两类碰撞紧要情形:一种源于灰色车辆非法或侵略性变道;另一种是红色车辆处于灰色车辆的盲点,这在现实世界场景中常见。

在 CARLA 中模拟了四辆车的场景:黄色车辆代表“有故障”的 HDV,CAV 为红色车辆。[[IMG_3]]

进一步的设置包括黄色 HDV 试图超越灰色车辆但未能识别盲点中的红色 CAV,导致潜在碰撞。这种激进行为需要 CAV 通过一系列机动来避免系统失控。模拟还包括从左侧超车可能与右侧 CAV 发生侧撞的情景。[[IMG_4]]

仿真步长设定为 0.05 秒/步(约 20 步/秒)。黄色 HDV 的激进行为通过手动驾驶(如 Logitech G27 赛车方向盘)生成,并且开发者实现了 OpenAI Gym 与 Python API 的接口以连接 CARLA 模拟器,从而实现自动化的训练和评估。