互联网资讯

达摩院突破万亿级AI预训练模型，成为全球最大的同类模型

2024年4月9日 · admin

在人工智能前沿领域，中国的研究进展持续推进。

11月8日，相关机构宣布，基于多模态能力的大模型M6在参数规模上实现显著跃升，达到10万亿级别，远超此前公开的万亿级模型，成为全球规模最大的预训练模型之一。

此外，M6在能耗与效率方面也实现行业前沿的突破。仅用512张GPU，在10天内就训练出具备可用水平的10万亿规模模型，展现出极高的训练效率与资源利用率。

与去年发布的GPT-3相比，M6在同等参数规模下的能耗降幅达到显著水平，甚至低于其1%之量级。

M6是面向通用智能任务的多模态大模型，具备跨任务的认知与创造能力，尤其在设计、写作与问答等场景表现突出，未来在电商、制造、文学艺术、科学研究等领域具有广阔的应用前景。

相比传统AI，大模型在参数规模与知识覆盖方面具备指数级扩展，具备更强的跨模态学习与推理能力。

因此，大模型被视为未来AI生态的基础支撑，但其训练成本依然高昂。以规模接近千亿参数的语言模型为例，其训练所需的能量消耗往往达到极高的水平。

今年5月，通过创新的专家并行策略与优化技术，M6团队将万亿级模型的能耗显著降低，效率提升接近11倍。

10月，M6在进一步提升细粒度计算调度与共享算法方面取得突破，收敛效率提升达7倍，使在规模扩大10倍的情况下，能耗增幅保持可控。

这一系列进展大幅降低了训练大模型的门槛，使得单机环境下训练千亿级模型成为可能。

破10万亿！达摩院实现全球最大AI预训练模型：远超谷歌、微软

同时，相关团队联合云服务提供商推出了M6的服务化平台，面向大模型的训练与应用提供完整工具，首次实现“开箱即用”，让算法研发人员与普通用户都能便捷使用该平台。

此外，推出了面向中文多模态评测的规模化数据集MUGE，覆盖图文描述、文本生成图像及跨模态检索等任务，填补了中文多模态权威评测基准的空白。

破10万亿！达摩院实现全球最大AI预训练模型：远超谷歌、微软

作为国内首个实现商业化落地的多模态大模型，M6已在40多个场景中展现应用，日均调用量达到亿级别。

今年，模型首次在双11场景中落地应用：M6为品牌设计的服饰在电商平台上线，具备流畅写作能力的它也为虚拟主播创作剧本，并通过多模态理解能力增强了搜索与内容理解的准确性。

破10万亿！达摩院实现全球最大AI预训练模型：远超谷歌、微软

相关负责人表示，未来将深入研究大脑认知机制，提升跨模态知识抽取与理解的能力，构建通用人工智能算法底层框架；同时继续增强在不同场景下的创造力，以实现更高的应用价值。

据了解，面向中文的语言模型领域，相关团队的PLUG模型也在近期升级至2万亿参数，成为全球最大的中文语言模型，所属的AliceMind体系同样推出了服务化平台。