第四代基座大模型 GLM-4 正式发布。相比上一代 GLM-3,整体性能提升约 60%,在中文理解与生成方面也展现出接近 GPT-4 的能力。

从整体表现来看,GLM-4 在多项核心能力上都有明显进步,不仅进一步逼近国际领先模型,还支持更长上下文、更强的多模态处理能力,以及更快的推理速度和更高并发能力,从而有效降低使用成本。
在智能体能力方面,GLM-4 All Tools 支持根据用户意图自动拆解任务、规划执行流程,并调用网页浏览器、代码解释器以及多模态文生图模型来完成复杂任务。同时,面向个人与团队的 GLMs 个性化智能体定制功能也已上线,用户仅需通过简单提示词,即可创建专属智能体。
评测成绩概览
在多个通用基准测试中,GLM-4 给出了较为突出的成绩,整体表现已接近 GPT-4。

MMLU:81.5,约为 GPT-4 水平的 94%
GSM8K:87.6,约为 GPT-4 水平的 95%
MATH:47.9,约为 GPT-4 水平的 91%
BBH:82.3,约为 GPT-4 水平的 99%
HellaSwag:85.4,约为 GPT-4 水平的 90%
HuManEval:72,达到 GPT-4 的同等水平

在中文指令理解与提示词跟随能力上,GLM-4 同样有不错表现。在 IFEval Prompt 提示词跟随中文测试中,达到 GPT-4 水平的 88%;在中文指令跟随方面,达到 90%。

基于 AlignBench 数据集的结果显示,GLM-4 已超过 GPT-4 2023 年 6 月 13 日版本,并接近其 11 月 6 日版本的效果。不过在中文推理与逻辑推理等方向,模型仍有进一步优化空间。

长上下文与检索能力
GLM-4 支持最高 128K 的上下文窗口,单次提示可处理约 300 页文本内容。在 Needle Test(大海捞针)测试中,模型在 128K 长文本范围内几乎保持 100% 的精度召回,没有明显出现因长上下文信息失焦而造成的性能下降。
工具调用与复杂任务处理
GLM-4 能够根据用户需求自动理解并规划复杂任务流程,自主调用网页浏览器、代码解释器以及文生图模型 CogView3。
在遇到复杂方程求解、微积分计算等场景时,模型可自动启用代码解释器完成推导与计算。官方给出的结果显示,GLM-4 All Tools 的整体效果已达到与 GPT-4 All Tools 相近的水平。
其自动化工具能力可覆盖多种复杂工作流,包括文件处理、数据分析、图表生成等,同时支持 Excel、PDF、PPT 等多种常见文件格式。

个性化智能体上线
除基础模型能力升级外,GLMs 个性化智能体定制能力也已同步开放。

这一功能意味着普通用户即使没有编程基础,也可以直接基于 GLM-4 构建并使用自己的智能体,进一步降低了大模型开发和应用门槛。

开源支持计划
面向 2024 年,官方还提出将发起开放式大模型开源基金,以支持开源社区和开发者生态建设。

该计划包含三个“1000”:
提供 1000 张算力卡,支持大模型开源开发;
提供 1000 万元现金,用于资助与大模型相关的开源项目;
为优秀开源开发者提供 1000 亿免费 API Tokens。
整体来看,GLM-4 不仅在基础性能、中文能力和长上下文处理方面取得明显进展,也在工具调用、智能体构建和开发者生态支持上进一步完善,展现出国产大模型持续向前发展的趋势。
