互联网资讯

万亿参数大模型的512张GPU训练之路

2024年4月9日 · admin

10万亿参数，这并非夸张之言。

而且是在512张GPU上，经过约10天时间训练就完成的。

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

这就是最新推出的大规模通用型人工智能模型，代号 M6-10T。

它在电商、制造、文学艺术、科学研究等领域展现出多模态多任务能力，并在实际场景的下游任务中不断落地。

更重要的是，它支持即开即用，你今年的购物季后端也会看到它的身影。

先把“剁手节”放在一边，核心问题在于：M6-10T 是如何用有限资源训练出极其庞大的模型？

此前，微软的 Deepspeed MoE 模型也曾用到512张 A100，完成了3.5万亿参数的训练。

而在五个月前推出的万亿级参数的版本，则是在480块GPU上完成的训练。

那么，512张GPU如何容纳10万亿参数呢？要解开这个谜，就要看自研的分布式框架 Whale 的作用。

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

在该框架之上，M6 模型可以通过粒度可控的 CPU offload 策略，灵活选择要 offload 的模型层级。

也就是说，并不是把所有权重都移到 CPU 内存中计算，而是保留部分权重在 GPU 内存中以提高利用率。

接下来要谈的是训练效率的提升。

M6-10T 采用了一种称为共享解除的训练策略，英文名为 Pseudo-to-Real。

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

该策略分为两个阶段：

第一阶段利用跨层参数共享机制快速构建并训练一个小型伪大模型 Pseudo Giant。由于参数量更小，Pseuro Giant 不受内存限制，可以通过大批量训练来加速，并通过专家拆分与合并机制，最终仅需 256 张 GPU 即可完成一个 Pseudo Giant 的训练。

第二阶段解除共享参数的关系，得到真实的大模型 Real Giant。训练阶段中已经训练好的模型层参数，将作为 Real Giant 各层的初始化，从而在已有小模型的基础上继续优化。

在下游评估中可以看到，从零开始训练 Real Giant 相比于使用 Pseudo Giant 的训练，收敛速度提升约五倍。

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

该机制不仅提升了样本维度的收敛速度，还使整体训练速度提升超过七倍。

与此前的 M6-MoE 和 M6-T 相比，采用新训练策略后的 M6-10T 的 perplexity 更低，模型表现更强。

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

换句话说，如果当初用480张 GPU 训练的万亿参数模型采用现在的方法，大概仅需64张 GPU 即可完成训练。

除了算法层面的突破，该模型一经问世便具备落地能力。

例如在即将到来的购物节，你或多或少会看到这些 AI 设计款的应用。

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

△ 基于 M6 的设计生成的服装方案

这正是大模型带来的创造力。

结合 StyleGAN 的能力，M6 能在少量样本下自动生成图像，并保持细节质量及可编辑性，与传统设计款式图有所不同的是，生成效果更接近真实照片。

在手机端购物平台也会看到基于 M6 的智能文案生成与内容创作。

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

同时，大模型的多模态特征提取能力能够补充商品属性标签，提升认知召回等应用效果。

可以说，内部有超过40个业务团队逐步建立起基于各版本 M6 的服务化平台，覆盖面不断扩大。

除了电商领域，金融、工业、传统科学等方向也在探索与落地。

如今，M6 已成为服务化平台的核心之一，构建了较为广泛的大模型生态。

那么未来是继续追求更大规模的模型，还是优化现有参数规模的训练效率？

研究团队表示：随着参数规模的扩大，当前的预训练模型在语言建模等任务上已取得进展，但对知识的深入理解还有待提升。因此，如何将大模型高效迁移到更多类型的下游任务、让模型真正理解并应用知识，将成为未来的重点研究方向。

论文及更多信息：