机器学习支持下的 k8s 节点扩展至 7500 个

OpenAI 将 k8s 扩展至 7500 个节点以支持机器学习

为了支持 GPT-3、CLIP 和 DALL+ 等大型模型的需求，以及迅速进行小规模迭代研究，OpenAI 将其 k8s 集群扩展至 7500 个节点。

OpenAI 将 k8s 扩展至 7500 个节点以支持机器学习

根据描述，针对大型机器学习任务，通常一个节点仅由一个 pod 占用。OpenAI 部署的集群具有二等分带宽，尽管节点数量众多，调度程序的压力相对较小，只有在新任务需要一次创建数百个 pod 时，才会出现调度压力。

OpenAI 将 k8s 扩展至 7500 个节点以支持机器学习

此外，OpenAI 还阐述了在扩展 k8s 集群过程中的关键工作，包括通过采用基于别名的 IP 寻址解决大量节点的联网问题、在专用节点上部署 etcd 和 API 服务器以分散负载、使用 ProMetheUS 和 GRaFAna 收集指标时解决 OOM 问题、设计集群健康检查机制，以及合理分配集群资源等。

然而，OpenAI 也提到，在扩展 k8s 集群时，仍然存在一些待解决的问题。例如，在大规模情况下，ProMetheUS 的内置 TSDB 存储引擎的压缩速度过慢，重启 WAL（写入预录）所需时间较长；同时，扩展集群时，每个 pod 都会被计算为需要一定带宽，导致网络带宽压力增加。尽管尚需改进之处，k8s 凭借其卓越的扩展能力，依然能够满足其研究需求。

ad

近期文章

互联网技术 / 互联网资讯 · 2023年12月1日 0

机器学习支持下的 k8s 节点扩展至 7500 个

You may also like...

发表评论取消回复

互联网技术 / 互联网资讯 · 2023年12月1日 0

You may also like...

企业网站内容更新的实例解析

明星助力私域运营，每日黑巧加速用户运营场景“三连升”

达内IT培训集团不断支持大学生提升“职场力

发表评论 取消回复

发表评论取消回复