在过去的十年中,关于云计算能否支持高性能计算(HPC)的问题被反复提及,得到的回答通常是“是的,当然,很可能”。
各大云服务提供商已推出HPC云服务,并在不断扩展。例如,AWS最近推出了基于AWS Graviton 2的C6gn实例,此实例提供高达100Gbps的网络连接,并且在价格性能上优于现代处理器40%。这一点对于需要高性能的HPC应用程序而言至关重要,这些应用程序历史上都需要通过并行处理来获取所需的性能。

福冈系统(Fugaku)近日宣布将提供云服务,这标志着HPC与私有云之间的合作关系可能成为一种新趋势。
与此同时,HPC用户发现将越来越复杂的工作负载(如EDA和药物设计)迁移到这些云服务中是有充分理由的。高校、研究机构以及传统行业(如石油和天然气)的HPC用户面临着日益紧缩的预算。迁移至云端使他们能够灵活地扩展或缩减计算能力,项目可以并行进行,而不是在队列中等待。此外,ARM架构的应用表现也很显著:在云中运行的80核AltRa(基于ARM的处理器)的基准测试显示,在多种应用中的时间减少了10-42%。时间、成本和复杂性都得以降低。
云计算中的HPC还可能使组织能够接触到更广泛的技术组合。我们正逐渐进入一个依赖于处理器创新和系统设计而非摩尔定律的性能提升时代。查看最新的超级计算机500强榜单,可以发现前十名中出现了五种不同的处理器架构和四种不同的互连技术。例如,Fugaku是基于ARM的A64FX处理器和Fujitsu的Tofu Interconnect D构建的,其他组织也在探索如何将这些技术融入自己的项目。由于不同技术在特定工作负载上的优势,组织们可以将注意力转向最有效的解决方案。
或许最为重要的是,云计算中的HPC将大幅增加能够利用当前petascale功能的公司数量,未来可能发展到exascale。大规模共享特定于工作负载的硬件的可行性将有助于我们应对人类面临的重大挑战。
以基因组学为例,DNA数据每七个月翻一番,增长速度可能超过YouTube等其他大数据生成器。相关信息将成为提高农业产量和研发新疫苗的关键。然而,若没有能够快速响应的高性能系统,知识库与需要这些信息的科学家之间将存在显著差距。
尽管潜力巨大,进展却缓慢。这是什么原因导致HPC在云计算领域的参与相对滞后?
一个原因是软件。许多应用程序仍基于Fortran编写,这使得迁移到新环境变得复杂。另一个原因是环境的变化:云系统提供的虚拟化、打包和控制平面与HPC用户习惯的环境截然不同。这一明显的差距亟需解决。总体而言,尽管我们在进步,但工具和语言的更新速度仍需加快。
还有心理障碍。HPC领域的创新并没有深入到核心问题,原因显而易见。数十年来,HPC社区一直是由超级用户主导的,改变这一趋势需要合作与沟通。这也意味着需要放弃对系统架构的绝对控制。国家安全因素从历史上就对HPC有着深远影响,这是另一个需要考虑的因素。
或许最重要的是对失去机会的恐惧:向云计算的转变是否会切断可能导致重大突破的研究渠道?HPC需要承担风险的长期研发,通常在国家实验室和其他独立机构中进行。这种研究不会因云中HPC的增长而被边缘化,但依然是一个需要重视的问题。显然,若能在RIKEN见证下看到更多公私合作将是一件好事。
总的来说,我们正在目睹商用HPC用户向云迁移的趋势。同时,学术界也将紧随其后,政府机构在这两个阵营中稳固立足,但采用速度较慢。理想情况下,商业合作伙伴关系和健康的用户基础将推动进一步的增长,提供经济和技术利益的途径,而不会牺牲推动HPC进步的必要性。
未来五年可能会因此变得相当有趣。
