互联网资讯

D1 AI芯片发布:500亿晶体管、400W热设计功耗

2024年4月3日 · admin
openmagic ad

在最近的AI日活动中,官方公布了最新的AI训练芯片“D1”系列,体量之大令人印象深刻。

该芯片采用先进制程,核心面积达到645平方毫米,仅次于业界部分超级计算核心的面积,集成高达500亿个晶体管,相当于传统计算芯片的一半量级。

其内部走线总长度超过11英里,约合18公里。

芯片集成了四个64位超标量CPU核心,拥有多达354个训练节点,面向8×8乘法等 AI 训练场景,支持多种数据格式指令,例如FP32、BF16、CFP8、INT16、INT8等。

据称,D1芯片的FP32单精度浮点计算性能达到22.6TFlops,BF16/CFP8计算性能可达362TFlops。

为支撑大规模AI训练的扩展性,芯片的互连带宽极高,最高可达10TB/s,由576个通道组成,每通道带宽112Gbps。

热设计功耗(TDP)定格在400W。

D1芯片通过DIP(Dojo接口处理器)实现互连,25颗构成一个训练单元(Training Tile),多个训练单元还能继续互连,单向对外带宽高达36TB/s,双向均为9TB/s。

如此巨大的系统在电力与散热方面的需求也相当显著,最大电流可达18000A,覆盖长方体散热结构,散热能力达到约15kW。

官方展示了一个训练单元的实验室样机,运行频率约2GHz,峰值计算性能可达9PFlops。

同时,D1芯片还用于构建一台AI超级计算机“ExaPOD”,该系统配备120个训练单元、3000颗D1芯片、1062000个训练节点,FP16/CFP8训练峰值可达1.1EFlops。

建成后,该系统将成为全球速度最快的AI超算,与现有NVIDIA方案相比,成本接近但提供约4倍性能提升、1.3倍能效比、及1/5的体积。