多方联合发布的MRC协议重塑AI训练网络架构
近日,五家知名企业联合发布了一项关于大规模AI训练网络的新协议,致力于解决训练过程中的网络延迟与故障问题。该协议被称为MRC(多路径可靠连接),并通过开放计算项目向行业发布,旨在提升网络的性能与韧性。

据介绍,MRC全称为 Multipath Reliable Connection,是在 RoCE 标准基础上的扩展,结合了 SRv6 技术。开源发布的目的是提升高性能计算环境中的网络效率与稳定性。
在进行大规模AI模型训练时,网络会遇到一系列挑战:单一路径的传输延迟可能导致训练中断,进而使GPU处于空闲状态。网络拥塞、链路故障和设备问题是主要原因,随着集群规模扩大,这些问题的发生频率也在上升。
为解决传统网络架构的扩展瓶颈,MRC采用了多平面网络设计。将单个 800 Gb/s 接口拆分为多条较小链路,系统大约只需两层交换机即可连接约 13.1 万块 GPU。与传统的三层或四层结构相比,这一设计显著降低了网络功耗与组件数量,同时提高了路径的多样性。
在流量调度方面,MRC引入了自适应数据包喷淋技术。与单路径传输不同,该技术将一个任务的数据包分散到上百条路径并行传输,有效缓解核心网络的拥塞。即使数据包出现乱序,接收端也能依据内存地址信息正确重组。
为简化网络控制,MRC 放弃了复杂的动态路由协议,改用 SRv6 源路由。发送端直接指定数据包的传输路径,交换机仅按静态配置表转发。这一机制消除了动态路由中的故障行为,使网络故障恢复时间从秒级缩短到微秒级。
实际部署显示,MRC 已在高性能计算系统和云基础设施站点得到应用。在真实训练场景中,即便发生链路抖动或交换机重启,MRC 也能够自动绕过故障而不中断训练任务。