万亿参数大模型的512张GPU训练之路
10万亿参数,这并非夸张之言。
而且是在512张GPU上,经过约10天时间训练就完成的。

这就是最新推出的大规模通用型人工智能模型,代号 M6-10T。
它在电商、制造、文学艺术、科学研究等领域展现出多模态多任务能力,并在实际场景的下游任务中不断落地。
更重要的是,它支持即开即用,你今年的购物季后端也会看到它的身影。
少量资源快速训练大模型
先把“剁手节”放在一边,核心问题在于:M6-10T 是如何用有限资源训练出极其庞大的模型?
此前,微软的 Deepspeed MoE 模型也曾用到512张 A100,完成了3.5万亿参数的训练。
而在五个月前推出的万亿级参数的版本,则是在480块GPU上完成的训练。
那么,512张GPU如何容纳10万亿参数呢?要解开这个谜,就要看自研的分布式框架 Whale 的作用。

在该框架之上,M6 模型可以通过粒度可控的 CPU offload 策略,灵活选择要 offload 的模型层级。
也就是说,并不是把所有权重都移到 CPU 内存中计算,而是保留部分权重在 GPU 内存中以提高利用率。
接下来要谈的是训练效率的提升。
M6-10T 采用了一种称为共享解除的训练策略,英文名为 Pseudo-to-Real。

该策略分为两个阶段:
第一阶段利用跨层参数共享机制快速构建并训练一个小型伪大模型 Pseudo Giant。由于参数量更小,Pseuro Giant 不受内存限制,可以通过大批量训练来加速,并通过专家拆分与合并机制,最终仅需 256 张 GPU 即可完成一个 Pseudo Giant 的训练。
第二阶段解除共享参数的关系,得到真实的大模型 Real Giant。训练阶段中已经训练好的模型层参数,将作为 Real Giant 各层的初始化,从而在已有小模型的基础上继续优化。
在下游评估中可以看到,从零开始训练 Real Giant 相比于使用 Pseudo Giant 的训练,收敛速度提升约五倍。

该机制不仅提升了样本维度的收敛速度,还使整体训练速度提升超过七倍。
与此前的 M6-MoE 和 M6-T 相比,采用新训练策略后的 M6-10T 的 perplexity 更低,模型表现更强。

换句话说,如果当初用480张 GPU 训练的万亿参数模型采用现在的方法,大概仅需64张 GPU 即可完成训练。
双十一背后的模型
除了算法层面的突破,该模型一经问世便具备落地能力。
例如在即将到来的购物节,你或多或少会看到这些 AI 设计款的应用。

△ 基于 M6 的设计生成的服装方案
这正是大模型带来的创造力。
结合 StyleGAN 的能力,M6 能在少量样本下自动生成图像,并保持细节质量及可编辑性,与传统设计款式图有所不同的是,生成效果更接近真实照片。
在手机端购物平台也会看到基于 M6 的智能文案生成与内容创作。

同时,大模型的多模态特征提取能力能够补充商品属性标签,提升认知召回等应用效果。
可以说,内部有超过40个业务团队逐步建立起基于各版本 M6 的服务化平台,覆盖面不断扩大。
除了电商领域,金融、工业、传统科学等方向也在探索与落地。
如今,M6 已成为服务化平台的核心之一,构建了较为广泛的大模型生态。
那么未来是继续追求更大规模的模型,还是优化现有参数规模的训练效率?
研究团队表示:随着参数规模的扩大,当前的预训练模型在语言建模等任务上已取得进展,但对知识的深入理解还有待提升。因此,如何将大模型高效迁移到更多类型的下游任务、让模型真正理解并应用知识,将成为未来的重点研究方向。
论文及更多信息: