深度学习时代的摩尔困境:人工智能的未来走向
不久前,微软与英伟达联合推出了参数量达5300亿的语言模型MT-NLG,这是一款基于 Transformer 架构的系统,被誉为迄今为止最大的生成式语言模型之一。
这无疑是一场极具震撼力的机器学习工程展示。但我们是否应对大型模型的趋势感到兴奋?

01. 大脑深度学习
研究者估算,人脑约包含860亿个神经元和万亿级别的突触。虽然不是所有突触都直接用于语言处理,GPT-4 的参数量也接近了万亿级别。
尽管对比并不精准,但为何不怀疑以接近人脑规模来构建语言模型是否在长期内仍具可行性?
当然,我们的大脑是经历数百万年进化的产物,而深度学习模型才有几十年的历史。尽管如此,直觉仍会提醒我们,有些问题是无法简单通过规模来解决的。
02. 深度学习,还是深度钱包?
在庞大的文本数据集上训练一个5300亿参数的模型,显然需要巨量基础设施。
报道显示,相关团队使用了数百台 DGX-A100 服务器。单台设备价格接近20万美元,再叠加网络设备、机房等成本,想要复现实验,往往需要动用近1亿美元的预算。
哪些企业具备在深度学习基础设施上花费如此巨资的案例?或许极少。
那么,这些模型究竟服务于谁?
03. GPU 集群
尽管具备卓越的工程能力,但在 GPU 上训练深度模型仍然是一项高强度的任务。
数据显示,每台 DGX 服务器的耗电量可达约6.5千瓦,数据中心需要提供同等规模的散热能力。
除非你是需要拯救世界的企业,散热问题都不能忽视。
此外,随着社会对气候与企业社会责任的关注度提升,企业还需关注自身碳足迹。马萨诸塞大学的2019年研究指出,在 GPU 上训练大型模型的碳排放相当于一次跨美洲的飞行。以 BERT-Large 的3.4亿参数规模为例,训练的碳足迹更引人担忧。
那么,构建与推广这些庞大模型是否真的推动了对机器学习的理解与普及?
相反,将重点放在更具可操作性的技术上,或许能够推动高质量的机器学习解决方案的落地。
04. 使用预训练模型
在多数场景中,并不需要自行设计新的模型体系结构。
一个有效的起点是寻找已经针对你的任务(例如英文文本摘要)进行过预训练的模型。
随后,快速尝试若干模型以适配自己的数据。如果某个模型的参数指示出良好表现,就可以落地应用;若需更高精度,再进行微调。
05. 使用较小的模型
在评估模型时,应优先选择能达到所需精度的最小模型。这样不仅推断更快,也需要更少的硬件资源来训练与推理。
这并非新鲜事。计算机视觉领域的“Yes, smaller”理念已在 2017 年的 SqueezeNet 中得到体现,与 AlexNet 相比,模型体积减少了约50倍,同时达到或超过原有准确性。
在自然语言处理领域,知识蒸馏等迁移学习技术也在努力缩小规模。DistilBERT 是其中一个广为人知的例子:相较原始的 BERT,保留约97%语言理解能力、模型体积缩小约40%、推理速度提升约60%。同样的方法也被应用于其他模型,例如 Facebook 的 Bart 项目。
BigScience 项目的最新模型同样给人印象深刻。其 T0 模型在多项任务上甚至优于 GPT-3,同时模型规模缩小约16倍。

06. 微调模型
若需要对一个模型进行专业化,不必从头训练。通常做法是对其进行微调,即仅在自有数据上进行若干轮训练。
迁移学习带来的好处包括:需要的数据量更少、实验迭代更快、获得产出的资源也更少。
换言之,就是省时、省钱、少占用硬件资源,同时保持效果。
07. 使用云端基础设施
无论偏好如何,云计算提供商都擅长建设高效的基础设施。研究显示,基于云的方案通常在能源与碳效率方面优于替代方案。尽管云环境并非完美,但在能源利用和经济灵活性方面仍具优势。
在易用性、灵活性与即用即付方面,云端方案具备显著优势。
08. 优化模型
从编译器到虚拟机,软件工程领域长期依赖工具来优化硬件代码。尽管如此,机器学习社区在这方面的努力仍在持续,原因也十分充分:优化模型的规模与速度是一项极为复杂的任务,涉及多种技术要素。
相关方向包括:硬件加速(专用训练与推理芯片)、剪枝以去除对预测贡献极低的参数、模型层融合、量化以降低参数表示精度但保持性能等。
自动化工具正在逐步成熟,例如 OptiMuM 等开源库,以及 InfinITy 这样的容器化解决方案,能够在毫秒级别内提高 Transformer 的推理效率。
09. 结论
在近年里,大型语言模型的规模以极快的速度增长,这看起来有点像另一轮“摩尔定律”的延展。
若继续把发展聚焦在“模型越大越好”的路径,可能带来边际收益递减、成本与复杂度持续上升等问题。
这会是人工智能的理想未来吗?与其追逐万亿参数的模型,更值得投入的,是将精力与资源放在构建面向现实问题、更加高效和实用的解决方案上,这或许才是更可持续的发展方向。