在游戏领域,基于RDNA 2架构的Radeon RX 6000系列显卡已经陆续推出。而在高性能计算领域,AMD最新的Instinct MI100计算卡也终于亮相!
AMD的Radeon Instinct系列计算卡已经推出了多个版本,但在此之前,AMD的GPU一直采用单一架构,游戏和计算没有明显区分,这使得针对不同需求的深度优化变得困难。

今年3月,AMD首次公布了专为数据中心高性能计算设计的CDNA架构,标志着与RDNA游戏架构的明确分割。虽然两者有一些相似之处,但在设计和优化上已经清晰可辨,分别在各自领域提升了性能和能效。
在产品命名上,AMD也不再使用Radeon字样,新的计算卡被称为Instinct。
AMD Instinct旨在推动HPC高性能计算的发展,期望将超级计算机推向百亿亿次计算时代(ExaScale)。


回顾历史,21世纪的前十年属于万亿次计算时代(TeRaScale),当时仅依赖CPU进行运算;而最近十年则进入了千万亿次计算时代(PetaScale),GPU加速运算逐渐崭露头角。
不过,传统的GPU加速计算在近两年已显疲态,性能提升的速度也变缓,亟需实现新的突破。


CDNA架构和MI100加速卡便是这种突破的产物,标志着AMD迈向新未来的旗舰产品。
AMD Instinct MI100是迄今为止性能最高的HPC GPU,FP64双精度浮点性能首次突破10TFlops(每秒1亿亿次),并在架构设计中增加了MatRix CoRe(矩阵核心),旨在加速HPC和AI运算,声称在混合精度和FP16半精度的AI负载上性能提升接近7倍。
此外,新卡的外观设计也引人注目,采用更为质感的拉丝外壳,深灰色调显得沉稳大气。

MI100集成了多达120个计算单元和7680个流处理器,配备32GB HBM2显存,带宽达到1.23TB/s,支持PCIe 4.0,集成InfinITy FAbRic x16高速互联通道,峰值带宽高达276GB/s(约为PCIe 4.0 x16的4倍),而整卡功耗控制在300W。
在计算性能方面,FMA64/FP64双精度达11.5TFlops(每秒1.15亿亿次),FMA32/FP32单精度为23.1TFlops(每秒2.31亿亿次),FP32 MatRix单精度矩阵计算为46.1TFlops(每秒4.61亿亿次),FP16 MatRix半精度矩阵计算为184.6TFlops(每秒18.46亿亿次),Bfloat16浮点为92.3TFlops(每秒9.23亿亿次)。

这些数字意味着什么呢?
举例来说,11.5TFlops的双精度性能在2000年排名世界第一的超级计算机ASCI WhITe也仅为12.3TFlops,但其功耗高达600万瓦,体积达106吨,而Instinct MI100仅需300瓦,重量为1.16千克。
换句话说,今天的一块显卡,相当于20年前的一个大型计算集群!

AMD上代的Instinct MI50采用的是Vega 20核心,具备60个计算单元、3840个流处理器和32GB HBM2显存,带宽为1TB/s,InfinITy FAbRic总线带宽为92GB/s,功耗同样为300W。
相比之下,Instinct MI100的核心规模翻了一番,显存带宽提升超过20%,InfinITy FAbRic带宽提升了整整2倍,而功耗仍然保持不变(工艺仍为7nm),可见新架构的能效表现。
新卡的性能提升显著,FP64双精度和FP32单精度性能均提升了74%,FP32矩阵性能接近提升2.5倍,AI负载性能更是实现了接近7倍的飞跃。

在美国能源部旗下的橡树岭国家实验室,AMD MI100计算卡已经支撑多项百亿亿次科研项目,涉及NAMD分子动力学模拟、CHOLLA星系形成研究、PIConGPU激光放射癌症治疗、GESTS流体动力学等多个前沿科技领域。

AMD Instinct MI100计算卡还有一个绝佳搭档,即AMD自家的霄龙数据中心处理器,慧与、戴尔、超威、技嘉等多家行业巨头均提供这种双A方案。

当然,单靠硬件无法实现高性能计算,AMD还在不断推进一站式软件解决方案ROCM。
自2016年推出1.x版本以来,2018年奠定基础的2.0版本、2019年专注于机器学习的3.0版本,到如今最新的4.0版本,AMD ROCM已经构建了一整套针对机器学习和高性能计算的百亿亿次级开发方案,规划中的各项功能特性也基本实现。

软件优化的力量显著,可以充分释放硬件的潜力。例如,前代MI50在搭配ROCM 3.0时,性能相比于ROCM 2.0提升了3-4倍,而最新的MI100与ROCM 4.0结合,更是能够轻松实现5-8倍的性能提升。

