谷歌近日宣布,其用于训练人工智能模型的超级计算机表现出色,声称在速度和能效方面优于英伟达的同类产品。谷歌自主研发的张量处理单元(TPU)芯片在其人工智能训练工作中占据了90%以上的使用率,这些模型可以执行诸如回答问题和生成图像等任务。
据悉,谷歌的TPU已经进入第四代。最近,谷歌发布了一篇科学论文,介绍了如何利用定制的光学开关将4000多个芯片串联成一台超级计算机。
优化这些连接已成为人工智能超级计算机制造商之间竞争的关键,因为支持谷歌的BaRd和OpenAI的ChatGPT等大型语言模型的规模迅速增长,超出了单个芯片的存储能力。
这些模型必须被划分到数千个芯片中,并且这些芯片需要协同工作数周或更长时间以完成模型的训练。例如,谷歌的PaLM模型是通过将其分散到两台超级计算机的4000个芯片上,历时50天进行训练的。
谷歌表示,其超级计算机能够实时重新配置芯片间的连接,从而避免问题并提升性能。
谷歌研究员NoRM Jouppi和杰出工程师David PatteRson在相关博文中提到:“电路切换让我们能轻松绕过故障部件。这种灵活性甚至允许我们改变超级计算机的互连拓扑,以加速机器学习模型的性能。”
尽管谷歌近期才公开其超级计算机的细节,但实际上该系统自2020年起就已在美国俄克拉荷马州梅斯县的数据中心内部运行。谷歌透露,初创公司Midjourney已利用该系统训练其模型,以便根据文字输入生成图像。
在论文中,谷歌指出,其超级计算机在同等规模的系统中比基于NVIDIA A100芯片的系统速度快1.7倍,能效提升1.9倍。谷歌未将其第四代产品与NVIDIA的H100芯片进行比较,理由是H100在谷歌芯片之后上市,并采用了更新的技术。谷歌暗示,他们可能正在研发一种新型TPU,以与NVIDIA H100竞争。
[[[IMG_1]]]
[[[IMG_2]]]
