达摩院突破万亿级AI预训练模型,成为全球最大的同类模型
在人工智能前沿领域,中国的研究进展持续推进。
11月8日,相关机构宣布,基于多模态能力的大模型M6在参数规模上实现显著跃升,达到10万亿级别,远超此前公开的万亿级模型,成为全球规模最大的预训练模型之一。
此外,M6在能耗与效率方面也实现行业前沿的突破。仅用512张GPU,在10天内就训练出具备可用水平的10万亿规模模型,展现出极高的训练效率与资源利用率。
与去年发布的GPT-3相比,M6在同等参数规模下的能耗降幅达到显著水平,甚至低于其1%之量级。
M6是面向通用智能任务的多模态大模型,具备跨任务的认知与创造能力,尤其在设计、写作与问答等场景表现突出,未来在电商、制造、文学艺术、科学研究等领域具有广阔的应用前景。
相比传统AI,大模型在参数规模与知识覆盖方面具备指数级扩展,具备更强的跨模态学习与推理能力。
因此,大模型被视为未来AI生态的基础支撑,但其训练成本依然高昂。以规模接近千亿参数的语言模型为例,其训练所需的能量消耗往往达到极高的水平。
今年5月,通过创新的专家并行策略与优化技术,M6团队将万亿级模型的能耗显著降低,效率提升接近11倍。
10月,M6在进一步提升细粒度计算调度与共享算法方面取得突破,收敛效率提升达7倍,使在规模扩大10倍的情况下,能耗增幅保持可控。
这一系列进展大幅降低了训练大模型的门槛,使得单机环境下训练千亿级模型成为可能。

同时,相关团队联合云服务提供商推出了M6的服务化平台,面向大模型的训练与应用提供完整工具,首次实现“开箱即用”,让算法研发人员与普通用户都能便捷使用该平台。
此外,推出了面向中文多模态评测的规模化数据集MUGE,覆盖图文描述、文本生成图像及跨模态检索等任务,填补了中文多模态权威评测基准的空白。

作为国内首个实现商业化落地的多模态大模型,M6已在40多个场景中展现应用,日均调用量达到亿级别。
今年,模型首次在双11场景中落地应用:M6为品牌设计的服饰在电商平台上线,具备流畅写作能力的它也为虚拟主播创作剧本,并通过多模态理解能力增强了搜索与内容理解的准确性。

相关负责人表示,未来将深入研究大脑认知机制,提升跨模态知识抽取与理解的能力,构建通用人工智能算法底层框架;同时继续增强在不同场景下的创造力,以实现更高的应用价值。
据了解,面向中文的语言模型领域,相关团队的PLUG模型也在近期升级至2万亿参数,成为全球最大的中文语言模型,所属的AliceMind体系同样推出了服务化平台。