ResNet-50模型训练速度超越NVIDIA DGX A100，Graphcore的IPU潜在优势分析

最近，AI基准测试MLPeRf发布了最新的训练测试排行榜，引发了业内的广泛关注。

IPU提供商Graphcore此次向MLPeRf提交了四种系统配置：IPU-POD16、IPU-POD64、IPU-POD128和IPU-POD256进行训练测试，取得了显著的提升。尤其是在ResNet-50模型和自然语言处理（NLP）模型BERT的训练性能方面，IPU-POD16的表现甚至超过了NVIDIA DGX A100。

Graphcore专注于AI领域的IPU研发，旗下拥有IPU硬件和POPlaR软件两大核心业务，致力于提供软硬件一体化解决方案以满足机器智能的需求。根据企查查的数据，Graphcore自2016年成立以来，已获得超过7.1亿美元的投资。

与自身相比：ResNet-50模型的训练性能提升了24%，而BERT模型的训练性能提升了5%。

Graphcore提交给MLPeRf的IPU-POD16、IPU-POD64、IPU-POD128和IPU-POD256系统由不同数量的IPU-M2000和双CPU服务器构成。

IPU-POD16由4个1U的IPU-M2000和一台双CPU服务器组成，提供高达4 petaFLOPS的AI算力。

其中，IPU-M2000是一款即插即用的刀片式计算单元，采用Graphcore的7纳米ColoSSUS第二代GC200 IPU，并由POPlaR软件栈提供支持。

在今年7月，Graphcore首次向MLPeRf提交了IPU-POD16和IPU-POD64的训练测试。这次同样提交的两项硬件并未发生变化。

最新的测试结果显示，与首次提交的MLPeRf训练数据相比，Graphcore在IPU-POD16上对ResNet-50模型实现了24%的性能提升，在IPU-POD64上则实现了41%的提升；对于BERT模型，IPU-POD16的性能提升为5%，而在IPU-POD64上则为12%。

Graphcore大中华区总裁兼全球首席营收官卢涛表示，这些性能提升是自首次提交以来仅通过软件优化实现的。MLPeRf的测试结果表明，Graphcore的IPU系统更加强大、高效，软件也更加成熟。

卢涛表示，ResNet-50模型训练在IPU-POD16上的性能超越了NVIDIA DGX A100。

最新的MLPeRf测试结果还对比了Graphcore与NVIDIA产品的性能。

通常来说，ResNet-50模型主要用于计算机视觉领域，NVIDIA GPU在这一模型的测试结果长期以来处于领先地位。

不过，最新的MLPeRf测试结果显示，Graphcore的IPU-POD16在ResNet-50训练中的表现优于NVIDIA的DGX A100。训练ResNet-50在DGX A100上需要29.1分钟，而IPU-POD16仅需28.3分钟。

DGX A100是NVIDIA于去年5月发布的旗舰产品，采用两颗AMD霄龙7742处理器，旨在支持所有AI工作负载。

卢涛对此表示，ResNet模型自2016年推出以来，在GPU上已经优化了5年。我们通过两次MLPeRf测试，能够在这个GPU主流模型上超越GPU，这让我们倍感自豪，未来还有进一步的提升空间。

需要注意的是，Graphcore此次MLPeRf测试的一个显著不同之处在于首次提交了IPU-POD128和IPU-POD256的大规模系统集群，这两个系统也取得了令人满意的成绩。

从ResNet-50模型在不同机器集群上的训练性能来看，IPU-POD16的训练时间为28.33分钟，随着系统规模的增大，训练时间逐步减少。在IPU-POD64上，训练时间缩短至8.5分钟；在IPU-POD128上为5.67分钟；在IPU-POD256上，仅需3.79分钟。

对于NLP模型BERT，Graphcore在开放和封闭类别中分别提交了IPU-POD16、IPU-POD64和IPU-POD128的结果，其中新的IPU-POD128的训练时间为5.78分钟。

谈及Graphcore整体性能提升的原因，卢涛向TechWeb表示，这次提交的大规模集群背后得益于GCL（Graphcore Communication Library）通信库的完善，能够支撑集群的搭建，这是Graphcore在产品和技术上的重要进展。同时，团队还进行了多项优化，包括编译器、框架、算法模型和IPU与CPU间的通信优化等。

卢涛指出，在MLPeRf原始数据中，各制造商系统的主机CPU数量普遍较高，而Graphcore的主机CPU与IPU的比率始终保持最低。例如，在BERT-Large模型中，IPU-POD64只需一个双CPU主机服务器。ResNet-50模型需要更多主机处理器支持图像预处理，因此Graphcore为每个IPU-POD64配置了四个双核服务器。1比8的比例仍然低于其他所有MLPeRf参与者。实现主机CPU与IPU的低比率的原因在于，Graphcore的IPU仅使用主机服务器进行数据移动，无需在运行时分配代码，从而降低了对主机服务器的需求，实现更灵活、高效的横向扩展系统。

在新模型如GPT2、VIT、EFFicientNet等方面的表现如何？

如果说ResNet-50、BERT等模型在2019年前仍属主流，那么近两年涌现的GPT2、EFFicientNet、VIT等新模型也受到越来越多的行业关注。例如，VIT已成为AI领域中用Transformer进行计算机视觉的典型算法模型。

虽然这些新模型没有在MLPeRf中测试，Graphcore中国工程总负责人、AI算法科学家金琛展示了Graphcore产品在GPT2、EFFicientNet和VIT等新模型中的表现。

以EFFicientNet-B4为例，在IPU-POD16上的训练时间为20.7小时，而在IPU-POD256上则仅需1.8小时，性能远超DGX A100官方提供的数据。

Graphcore中国工程总负责人、AI算法科学家金琛

据介绍，Graphcore的产品已在金融、保险、天气预测和科学计算等领域得到了应用。卢涛表示，在金融案例中，IPU的速度比GPU快10倍，而在保险算法模型中快5倍；在天气预测方面，IPU在欧洲中期天气预报中心的模型上比CPU快50倍，比GPU快5倍。

近期，国内百度深度学习平台飞桨发布了在Graphcore IPU上实现训练和推理全流程支持的开源代码库，百度飞桨的开发者可以在IPU上进行AI模型加速，国内的开发者们也可以尝试IPU的加速效果。

ad

近期文章

互联网资讯 / 人工智能 · 2023年12月29日

ResNet-50模型训练速度超越NVIDIA DGX A100，Graphcore的IPU潜在优势分析

You may also like...

互联网资讯 / 人工智能 · 2023年12月29日

You may also like...

腾讯宣布：首次加入「双11」，致力于提升「私域业态」

中国移动涨停 股价创上市以来新高

Aqara发布智能可视门铃G4：国内首款HomeKit智能门铃

中国移动涨停股价创上市以来新高