互联网资讯

多方联合发布的MRC协议重塑AI训练网络架构

2026年5月8日 ·

近日，五家知名企业联合发布了一项关于大规模AI训练网络的新协议，致力于解决训练过程中的网络延迟与故障问题。该协议被称为MRC（多路径可靠连接），并通过开放计算项目向行业发布，旨在提升网络的性能与韧性。

据介绍，MRC全称为 Multipath Reliable Connection，是在 RoCE 标准基础上的扩展，结合了 SRv6 技术。开源发布的目的是提升高性能计算环境中的网络效率与稳定性。

在进行大规模AI模型训练时，网络会遇到一系列挑战：单一路径的传输延迟可能导致训练中断，进而使GPU处于空闲状态。网络拥塞、链路故障和设备问题是主要原因，随着集群规模扩大，这些问题的发生频率也在上升。

为解决传统网络架构的扩展瓶颈，MRC采用了多平面网络设计。将单个 800 Gb/s 接口拆分为多条较小链路，系统大约只需两层交换机即可连接约 13.1 万块 GPU。与传统的三层或四层结构相比，这一设计显著降低了网络功耗与组件数量，同时提高了路径的多样性。

在流量调度方面，MRC引入了自适应数据包喷淋技术。与单路径传输不同，该技术将一个任务的数据包分散到上百条路径并行传输，有效缓解核心网络的拥塞。即使数据包出现乱序，接收端也能依据内存地址信息正确重组。

为简化网络控制，MRC 放弃了复杂的动态路由协议，改用 SRv6 源路由。发送端直接指定数据包的传输路径，交换机仅按静态配置表转发。这一机制消除了动态路由中的故障行为，使网络故障恢复时间从秒级缩短到微秒级。

实际部署显示，MRC 已在高性能计算系统和云基础设施站点得到应用。在真实训练场景中，即便发生链路抖动或交换机重启，MRC 也能够自动绕过故障而不中断训练任务。