互联网资讯

基于模型的强化学习在混合交通流避撞中的应用

2024年4月7日 · admin

本文提出一种基于模型的强化学习（RL）系统，部署在网联自动驾驶车辆（CAV）上，用以在混合交通流中预测并避免人类驾驶汽车（HDV）引发的碰撞。系统结合基于深度学习的运动预测模型与通过模型预测控制（MPC）实现的快速轨迹规划，属于端到端的数据驱动方法，且不需要事先给定车辆动力学的物理环境先验。

在实验方面，系统在 CARLA 模拟器中进行了多场景训练与测试，覆盖潜在碰撞情形。研究目标是实现一个可广泛部署于不同车型的通用方法，提升在网联自动驾驶场景中的安全性与鲁棒性。

混合交通流的研究对象包括 CAV、HDV 以及网联人类驾驶车辆（CHDV），这是一个近年来较少被系统性研究的方向。

基于模型的 RL 利用数据来估计状态转移模型，并据此进行规划。这种组合兼具数据/训练效率与模型不可知性的优点，可在多场景下实现稳定迁移。

通常用于 AV 轨迹规划的基于模型 RL 方法包含两个核心模块：状态预测和路径规划。状态预测作为对环境的估计，解决从历史信息推断未来状态的任务，即根据历史轨迹“预测”周围目标在未来时刻的状态分布。

在该研究中，状态预测模块采用神经网络结构，评估了三种模型：三层全连接神经网络（3-layer FCN）、单层长短期记忆网络（LSTM）以及单层线性回归（linear regression）。鉴于周围车辆的动态变化，采用分散预测模式，即每个智能体拥有独立的状态预测模型，而非集中化预测。

路径规划则在状态预测之上进行。由于预测并非完美，规划模块需要稳健地产出安全路径，以抑制误差传播，并且能够适应高动态场景，尤其是新智能体出现时的情况。

MPC 是一种常用的通用控制方法，符合上述两个标准：在每个时间步重新规划，同时执行当前最优轨迹的第一步。这种逐步评估动作可行性的机制使其能够应对快速变化的场景。

在传统 MPC 中，规划问题通常需要具有物理环境模型的复杂优化。基于模型 RL 的设置则将 MPC 与数据驱动的状态预测模块结合，用一个快速、简单的规划算法替代复杂优化，具有数据高效、模型可解释、稳定以及跨场景迁移等优点。

MPC 的规划流程通常包括四个步骤：
（1）在每个时间步生成序列，序列包含若干动作；
（2）对每条轨迹，将序列中的动作逐步输入状态预测模型，计算未来状态与成本；
（3）汇总各轨迹的成本；
（4）选择累积成本最低的轨迹，执行其第一步动作。

端到端算法的总体流程如下所示：

在混合交通流中网联自动驾驶车如何避撞：一个基于模型的强化学习方法

整个系统分为三个主要阶段：预热阶段（数据收集）、训练阶段（估计状态预测模型）以及路径规划阶段（避免碰撞）。这一过程遵循基于模型 RL 的循环：收集经验、估计模型、用估计模型进行规划。测试阶段的经验也可被加入到回放内存中，以便在部署后继续改进模型。

示意图显示了两类碰撞紧要情形：一种源于灰色车辆非法或侵略性变道；另一种是红色车辆处于灰色车辆的盲点，这在现实世界场景中常见。

在 CARLA 中模拟了四辆车的场景：黄色车辆代表“有故障”的 HDV，CAV 为红色车辆。[[IMG_3]]

进一步的设置包括黄色 HDV 试图超越灰色车辆但未能识别盲点中的红色 CAV，导致潜在碰撞。这种激进行为需要 CAV 通过一系列机动来避免系统失控。模拟还包括从左侧超车可能与右侧 CAV 发生侧撞的情景。[[IMG_4]]

仿真步长设定为 0.05 秒/步（约 20 步/秒）。黄色 HDV 的激进行为通过手动驾驶（如 Logitech G27 赛车方向盘）生成，并且开发者实现了 OpenAI Gym 与 Python API 的接口以连接 CARLA 模拟器，从而实现自动化的训练和评估。