互联网资讯 / 人工智能 · 2023年12月29日

ResNet-50模型训练速度超越NVIDIA DGX A100,Graphcore的IPU潜在优势分析

最近,AI基准测试MLPeRf发布了最新的训练测试排行榜,引发了业内的广泛关注。

IPU提供商Graphcore此次向MLPeRf提交了四种系统配置:IPU-POD16、IPU-POD64、IPU-POD128和IPU-POD256进行训练测试,取得了显著的提升。尤其是在ResNet-50模型和自然语言处理(NLP)模型BERT的训练性能方面,IPU-POD16的表现甚至超过了NVIDIA DGX A100。

Graphcore专注于AI领域的IPU研发,旗下拥有IPU硬件和POPlaR软件两大核心业务,致力于提供软硬件一体化解决方案以满足机器智能的需求。根据企查查的数据,Graphcore自2016年成立以来,已获得超过7.1亿美元的投资。

与自身相比:ResNet-50模型的训练性能提升了24%,而BERT模型的训练性能提升了5%。

Graphcore提交给MLPeRf的IPU-POD16、IPU-POD64、IPU-POD128和IPU-POD256系统由不同数量的IPU-M2000和双CPU服务器构成。

IPU-POD16由4个1U的IPU-M2000和一台双CPU服务器组成,提供高达4 petaFLOPS的AI算力。

其中,IPU-M2000是一款即插即用的刀片式计算单元,采用Graphcore的7纳米ColoSSUS第二代GC200 IPU,并由POPlaR软件栈提供支持。

在今年7月,Graphcore首次向MLPeRf提交了IPU-POD16和IPU-POD64的训练测试。这次同样提交的两项硬件并未发生变化。

最新的测试结果显示,与首次提交的MLPeRf训练数据相比,Graphcore在IPU-POD16上对ResNet-50模型实现了24%的性能提升,在IPU-POD64上则实现了41%的提升;对于BERT模型,IPU-POD16的性能提升为5%,而在IPU-POD64上则为12%。

Graphcore大中华区总裁兼全球首席营收官卢涛表示,这些性能提升是自首次提交以来仅通过软件优化实现的。MLPeRf的测试结果表明,Graphcore的IPU系统更加强大、高效,软件也更加成熟。

卢涛表示,ResNet-50模型训练在IPU-POD16上的性能超越了NVIDIA DGX A100。

最新的MLPeRf测试结果还对比了Graphcore与NVIDIA产品的性能。

通常来说,ResNet-50模型主要用于计算机视觉领域,NVIDIA GPU在这一模型的测试结果长期以来处于领先地位。

不过,最新的MLPeRf测试结果显示,Graphcore的IPU-POD16在ResNet-50训练中的表现优于NVIDIA的DGX A100。训练ResNet-50在DGX A100上需要29.1分钟,而IPU-POD16仅需28.3分钟。

DGX A100是NVIDIA于去年5月发布的旗舰产品,采用两颗AMD霄龙7742处理器,旨在支持所有AI工作负载。

卢涛对此表示,ResNet模型自2016年推出以来,在GPU上已经优化了5年。我们通过两次MLPeRf测试,能够在这个GPU主流模型上超越GPU,这让我们倍感自豪,未来还有进一步的提升空间。

需要注意的是,Graphcore此次MLPeRf测试的一个显著不同之处在于首次提交了IPU-POD128和IPU-POD256的大规模系统集群,这两个系统也取得了令人满意的成绩。

从ResNet-50模型在不同机器集群上的训练性能来看,IPU-POD16的训练时间为28.33分钟,随着系统规模的增大,训练时间逐步减少。在IPU-POD64上,训练时间缩短至8.5分钟;在IPU-POD128上为5.67分钟;在IPU-POD256上,仅需3.79分钟。

对于NLP模型BERT,Graphcore在开放和封闭类别中分别提交了IPU-POD16、IPU-POD64和IPU-POD128的结果,其中新的IPU-POD128的训练时间为5.78分钟。

谈及Graphcore整体性能提升的原因,卢涛向TechWeb表示,这次提交的大规模集群背后得益于GCL(Graphcore Communication Library)通信库的完善,能够支撑集群的搭建,这是Graphcore在产品和技术上的重要进展。同时,团队还进行了多项优化,包括编译器、框架、算法模型和IPU与CPU间的通信优化等。

卢涛指出,在MLPeRf原始数据中,各制造商系统的主机CPU数量普遍较高,而Graphcore的主机CPU与IPU的比率始终保持最低。例如,在BERT-Large模型中,IPU-POD64只需一个双CPU主机服务器。ResNet-50模型需要更多主机处理器支持图像预处理,因此Graphcore为每个IPU-POD64配置了四个双核服务器。1比8的比例仍然低于其他所有MLPeRf参与者。实现主机CPU与IPU的低比率的原因在于,Graphcore的IPU仅使用主机服务器进行数据移动,无需在运行时分配代码,从而降低了对主机服务器的需求,实现更灵活、高效的横向扩展系统。

在新模型如GPT2、VIT、EFFicientNet等方面的表现如何?

如果说ResNet-50、BERT等模型在2019年前仍属主流,那么近两年涌现的GPT2、EFFicientNet、VIT等新模型也受到越来越多的行业关注。例如,VIT已成为AI领域中用Transformer进行计算机视觉的典型算法模型。

虽然这些新模型没有在MLPeRf中测试,Graphcore中国工程总负责人、AI算法科学家金琛展示了Graphcore产品在GPT2、EFFicientNet和VIT等新模型中的表现。

以EFFicientNet-B4为例,在IPU-POD16上的训练时间为20.7小时,而在IPU-POD256上则仅需1.8小时,性能远超DGX A100官方提供的数据。

Graphcore中国工程总负责人、AI算法科学家金琛

据介绍,Graphcore的产品已在金融、保险、天气预测和科学计算等领域得到了应用。卢涛表示,在金融案例中,IPU的速度比GPU快10倍,而在保险算法模型中快5倍;在天气预测方面,IPU在欧洲中期天气预报中心的模型上比CPU快50倍,比GPU快5倍。

近期,国内百度深度学习平台飞桨发布了在Graphcore IPU上实现训练和推理全流程支持的开源代码库,百度飞桨的开发者可以在IPU上进行AI模型加速,国内的开发者们也可以尝试IPU的加速效果。