互联网资讯 / 人工智能 · 2024年3月3日

大模型训练的挑战与算力需求

利用全球40年的天气数据,清华大学的毕恺峰在约两个月内,通过200张GPU卡预训练出参数量达亿级的盘古气象大模型。

然而,从成本角度来看,按照正常情况下每张GPU7.8元/小时计算,毕恺峰的盘古气象大模型训练成本可能超过200万。值得注意的是,这仅仅是气象领域的垂直大模型,如果是通用大模型,成本可能要翻百倍。

根据统计,中国目前已有超过百个10亿参数规模的大模型。然而,行业内对于大模型训练的热潮面临着高端GPU短缺的问题。算力成本高昂,以及缺乏算力和资金,已成为行业面临的直接挑战。

“当然缺,但我们也无能为力。”某大厂高管在被问及算力短缺时如是说。

这种现象似乎已成为行业共识,顶峰时期一张英伟达A100的价格曾被炒至二三十万人民币,单台A100服务器的月租价格也飙升至5万-7万。但即便如此,昂贵的价格依然难以确保芯片的供应,一些算力供应商也曾遭遇过供应商违约的情况。

大模型训练的挑战与算力需求

事实证明,高端GPU的短缺在短期内无法解决。随着大模型的迅速发展,市场对算力的需求急剧上升,但供给的增速远远滞后。尽管从长远来看,算力供给将从卖方市场转向买方市场,但实现这一转变所需的时间仍是未知数。

各家公司都在评估自己手中有多少算力,甚至利用这一数据来判断市场份额。例如,如果某公司拥有接近1万张卡,而市场总共是10万张卡,则其市场份额为10%。知情人士举例说:“到年底保有量可能到4万,如果市场是20万的,那可能占20%的市场。”

一方面是难以购得GPU,另一方面是大模型训练的门槛并没有业界宣传的那么低。毕恺峰的盘古气象大模型的训练成本超出200万,而该模型是在盘古通用大模型的基础上训练的,参数为亿级。如果要训练一个参数规模达到十亿或更大的通用大模型,成本可能会增加十倍甚至百倍。

“目前最大规模的投资是在训练上,没有几十亿的资本投入,很难持续进行大模型的开发。”腾讯云总裁邱跃鹏表示。

“要快速取得成果,至少在资金耗尽之前能获得下一轮融资。”一位创业者形容当前大模型的竞争,“这条路是条绝路。如果没有百亿千亿的资本支持,几乎无法走通。”

在这种局面下,业内普遍认为,随着大模型市场的激烈竞争,市场将从狂热转向理性,企业也会根据预期的变化来控制成本和调整策略。

在缺乏条件的情况下,创造条件也成为大模型参与者的普遍心态。然而,如何创造条件以应对现实问题,各家公司也各有其法。

由于高端GPU短缺,中国市场的GPU往往不是最新代次,性能相对较低,因此企业需要更长的时间来进行大模型训练。许多公司正在寻找创新方法来弥补算力不足的问题。

近期,信通院发布了《行业大模型标准体系及能力架构研究报告》,其中提到大模型数据层的评估。报告建议在数据质量方面,建议引入人工标注和确认,至少从原始数据中选取一定比例进行标注,以构建高质量的数据集。

除了通过高质量数据来降低大模型成本,提升基础设施能力,实现千卡以上稳定运行两周不掉卡,也是构建可靠基础架构和优化大模型训练的重要方法之一。

网络连接也影响着大模型训练的速度和效率。大模型训练通常需要千卡级别的GPU,连接数百台GPU服务器所需的网络速度极高,如果网络出现拥塞,训练速度就会受到严重影响。“只要一台服务器过热宕机,整个集群都可能需要停下来,训练任务需要重启。这对云服务的运维能力和问题排查能力提出了很高的要求。”邱跃鹏说。

一些厂商则选择从云计算架构转向超算架构,以降低成本。在满足用户需求的情况下,非高通量计算任务和并行任务场景下,超算云的价格约为云计算的一半,通过性能优化,资源利用率可以从30%提高到60%。

此外,还有厂商选择使用国产平台进行大模型的训练和推理,以替代难以获得的英伟达产品。

上述方法每一种都是较大的工程,因此一般企业难以通过自建数据中心来满足需求,许多算法团队选择合作专业的算力供应商。这其中,并行存储也是一项巨大的成本,技术能力以及故障率保障等都属于硬件成本的一部分。此外,还需考虑IDC可用区的电力成本、软件、平台和人员等运营成本。

千卡级别的GPU集群才会产生规模效应,选择算力服务商几乎使边际成本为零。

中国工程院院士、计算技术研究所研究员孙凝晖曾指出,AIGC带来了人工智能产业的爆发,而智能技术的规模化应用存在典型的长尾问题,即具备强AI能力的部门(如网安、气象局等)和大中型企业只占算力需求的约20%,而80%的需求来自中小微企业,这类企业受限于公司规模和预算,往往难以接入算力资源,或因算力价格高昂而无法分享AI时代的红利。

因此,要实现智能技术的规模化应用,使人工智能产业既“叫好”又“叫座”,需要大量便宜、易用的智能算力,让中小微企业也能方便、便宜地使用算力。

无论是大模型对算力的迫切需求,还是在应用过程中需要解决的各种问题,都需要注意一个新变化,即算力在市场需求和技术迭代中已成为一种新的服务模式。

那么我们在争抢的大模型算力究竟是什么样的算力?解答这一问题,需要从算力服务谈起。

从类型上看,算力可分为通用算力、智能算力和超算算力,这些算力成为服务是市场和技术双重驱动的结果。

《2023算力服务白皮书》对算力服务的定义是,以多样性算力为基础,通过算力网络链接,目标是有效供给算力的新领域。

算力服务的本质在于通过新计算技术实现异构算力的统一输出,并与云、大数据、AI等技术交叉融合。算力服务不仅仅指算力,它是算力、存储、网络等资源的统一封装,以服务形态(如API)完成算力交付。

了解这一点后就会发现,争抢英伟达芯片的,其实很大一部分是算力服务提供方,即算力生产者。真正前端调用算力API的行业用户,只需提出相应的算力需求。

大模型训练的挑战与算力需求

也就是说,在算力结构的产业链中,上游企业主要负责通用算力、智能算力、超算算力、存储和网络等算力服务的支持资源供给。在大模型算力争夺战中,英伟达属于上游算力基础资源供应方向的企业,而这也导致了浪潮信息等服务器厂商的股票因市场需求而上涨。

中游企业则主要是云服务商和新型算力服务提供商,他们通过算力编排、调度和交易技术实现算力生产,并通过API等方式供给算力。上述提到的算力服务商、腾讯云、火山引擎等都处于这一环节。中游企业的服务化能力越强,对应用方的门槛越低,越有助于算力的普惠与泛在化发展。

下游企业则依靠算力服务提供的计算能力进行增值服务的产业链角色,例如行业用户等。这部分用户只需提出需求,算力生产者则根据需求配置相应的算力以完成用户的“算力任务”。

相比之下,直接购买服务器架设大模型算力环境的方式在成本和技术上具有优势。毕恺峰训练盘古气象大模型,应该是直接调用了盘古大模型的底层华为云高性能计算服务。那么,其他大模型企业在使用算力或为算力付费的过程会有什么不同呢?

以智谱AI的ChatGLM为例,这是最早一批推出的通用大模型,智谱AI使用了国内多家主流AI算力服务商的资源。“理论上应该都有用。”知情人士表示,这其中可能还包括国内多家主流算力服务商和云服务商。

按量计费和包年包月计费是当前算力服务的主流支付模式,使用需求大致分为两种,一种是选择对应的算力服务实例,在某云服务商的官网上,可以提供搭载英伟达A800、A100、V100三种主流显卡的高性能GPU服务器。

大模型训练的挑战与算力需求

另一种是选择对应的MaaS服务平台,在MaaS平台中对大模型进行行业性的精调。例如在腾讯云TI-ONE平台按量计费的刊例价为,8C40G V100*1的配置,20.32元/小时,可用于自动学习、视觉、任务式建模、Notebook、可视化建模等。

当前行业也在推进算力服务的“算网一体化融合”,通过对计算任务和算网资源状态等信息的综合分析,形成支持跨架构、跨地域、跨服务商调度的算网编排方案,并完成相关资源的部署。例如,只需存入一笔资金到算力网络中,网络中的分区可以随意调用。根据应用特性,选择最适合、最快、性价比最高的分区,然后根据使用时长计费,从预存资金中扣除相应费用。

云服务商同样如此,算力服务作为其独特的云服务产品,使他们能够更好地满足市场需求。