互联网技术 / 互联网资讯 · 2023年12月1日 0

机器学习支持下的 k8s 节点扩展至 7500 个

OpenAI 将 k8s 扩展至 7500 个节点以支持机器学习

为了支持 GPT-3、CLIP 和 DALL+ 等大型模型的需求,以及迅速进行小规模迭代研究,OpenAI 将其 k8s 集群扩展至 7500 个节点。

OpenAI 将 k8s 扩展至 7500 个节点以支持机器学习

根据描述,针对大型机器学习任务,通常一个节点仅由一个 pod 占用。OpenAI 部署的集群具有二等分带宽,尽管节点数量众多,调度程序的压力相对较小,只有在新任务需要一次创建数百个 pod 时,才会出现调度压力。

OpenAI 将 k8s 扩展至 7500 个节点以支持机器学习

此外,OpenAI 还阐述了在扩展 k8s 集群过程中的关键工作,包括通过采用基于别名的 IP 寻址解决大量节点的联网问题、在专用节点上部署 etcd 和 API 服务器以分散负载、使用 ProMetheUS 和 GRaFAna 收集指标时解决 OOM 问题、设计集群健康检查机制,以及合理分配集群资源等。

然而,OpenAI 也提到,在扩展 k8s 集群时,仍然存在一些待解决的问题。例如,在大规模情况下,ProMetheUS 的内置 TSDB 存储引擎的压缩速度过慢,重启 WAL(写入预录)所需时间较长;同时,扩展集群时,每个 pod 都会被计算为需要一定带宽,导致网络带宽压力增加。尽管尚需改进之处,k8s 凭借其卓越的扩展能力,依然能够满足其研究需求。