开源强化学习新环境实现百万帧/秒吞吐
回顾过去,大规模强化学习的训练曾经需要耗费大量计算资源。如今,相关研究团队公开了一款全新的强化学习训练环境引擎,展示了在256核CPU上达到1秒处理百万帧的速度,连笔记本处理器也能实现数万帧每秒的水平。
近些年,深度强化学习取得了显著进展,出现了不少具有里程碑意义的工作。尽管名称各异,这些成果涵盖了从早期的强化学习方法到在复杂对局和仿真环境中的应用与突破。
除了算法层面的进步,训练速度与吞吐量的提升也成为焦点。过去在简单环境中完成的一些实验,现在已经可以在更复杂的场景中实现高吞吐量的训练。
目前,全球规模较大的强化学习训练系统多采用分布式架构,通常需要海量的 CPU 和 GPU 资源来支撑。

与此同时,在某些高并发的训练体系中,每个智能体都需要同时驱动成千上万的环境实例,以便从游戏交互中快速迭代学习。为了提升下游数据的获取效率,往往需要占用大量 CPU 资源来运行环境仿真引擎。

资源规模越大,研究门槛越高,对学术界而言,资源有限的条件下难以在大型场景中开展系统性研究;在工业研究环境中,达到万核级别的资源投入也属于高成本的负担。
研究者们注意到,RL 环境本身往往是整个训练系统中最慢的环节,且处于数据供应端的位置,直接决定了系统的吞吐极限。

为提升 RL 环境的仿真性能与 CPU 利用率,相关团队提出了一种高度并行的 RL 环境引擎方案 EnvPool。
该引擎底层基于 C++ 线程池,通过异步方式并行执行多个环境实例,显著提升并行效率。在经典的环境仿真框架上,EnvPool 在单机配置下的表现达到极高的帧率,展示出惊人的吞吐潜力。

如此高的吞吐量大幅提升了研究人员的资源利用效率,与传统执行引擎相比可实现近比例级别的提升。这也意味着用同样的硬件资源,可以获得更高的训练效率,或在相同吞吐量下显著降低资源需求。
在资源相对有限的场景下,EnvPool 仍然展现出色表现。在12核 CPU 的条件下,使用传统环境引擎的速率只能达到较低水平,而使用 EnvPool 则可实现显著提升,达到约五万帧每秒,接近常用基准的三倍左右。
