互联网资讯

首次实现人脑规模的AI模型训练:单机支持120万亿参数,1.63亿核心的超大规模集群

2024年4月3日 · admin
openmagic ad

世界超大芯片解锁“人脑级”AI模型,集群顶配1.63亿核心

在全球范围内首次宣布推出的一个以人脑规模为参照的AI解决方案中,一台CS-2 AI计算机即可实现超过120万亿参数的训练规模。相比之下,人脑大约拥有100万亿个突触。除此之外,团队实现了192台CS-2机器的近乎线性扩展,构建出包含高达1.63亿个处理核心的计算集群。

世界超大芯片解锁“人脑级”AI模型,集群顶配1.63亿核心

该团队自2016年成立以来,在14个国家拥有数百名工程师,此前推出的世界级计算芯片也曾引发业界关注。

世界超大芯片解锁“人脑级”AI模型,集群顶配1.63亿核心

其中一款旗舰芯片采用先进工艺制成,单晶圆级尺寸达到显著规模,具备数万亿晶体管和数十万AI优化核心,其核心数和片上内存容量均处于行业前列。

世界超大芯片解锁“人脑级”AI模型,集群顶配1.63亿核心

该芯片嵌入到CS-2 AI计算机中。随着近年来超大规模AI模型的突破,单个小型集群难以支撑高速训练。最新披露的成果把单机可支持的神经网络参数规模提升至现有最大模型的100倍,达到约120万亿参数。

世界超大芯片解锁“人脑级”AI模型,集群顶配1.63亿核心

在国际顶级论坛上,联合创始人兼首席硬件架构师公开展示了实现这一突破的新技术组合,包含如下四项创新要点:

  1. 权重流式计算:一种全新的软件执行架构,首次实现了将模型参数存储放在芯片外部,同时仍保持类似片上的训练与推理性能。这一执行模型将计算与参数存储分离,使得扩展集群的规模与速度更加灵活,显著降低延迟和内存带宽的瓶颈,极大简化工作负载分布,无需改动原有软件即可从1台扩展到192台。

世界超大芯片解锁“人脑级”AI模型,集群顶配1.63亿核心

  1. 大容量外部存储扩展:提供高性能外部存储,确保系统可支持高达120万亿参数模型,同时保持接近片上性能水平。

世界超大芯片解锁“人脑级”AI模型,集群顶配1.63亿核心

  1. 片外通信与协同计算:通过高效的AI优化通信结构,将片上资源扩展至片外,支持多达192台机器协同训练单一神经网络,达到1.63亿核的规模。

世界超大芯片解锁“人脑级”AI模型,集群顶配1.63亿核心

  1. 动态稀疏选择:实现对权重稀疏程度的动态调控,使模型在训练中可选择不同的稀疏策略,直接减少计算量和推理时间。该技术在GPU环境下的实现难度较高,但在此系统中能够更高效地生成答案并提升整体速度。

Ceontin首席执行官兼联合创始人表示,这一进展将推动行业进入新的研究与应用阶段。相关领域的权威也对这一突破给予肯定,认为这代表着首次接近脑规模模型的实践能力,为未来研究和创新开辟了广阔路径。