国产大模型GLM-4发布：中文能力接近GPT-4

第四代基座大模型 GLM-4 正式发布。相比上一代 GLM-3，整体性能提升约 60%，在中文理解与生成方面也展现出接近 GPT-4 的能力。

从整体表现来看，GLM-4 在多项核心能力上都有明显进步，不仅进一步逼近国际领先模型，还支持更长上下文、更强的多模态处理能力，以及更快的推理速度和更高并发能力，从而有效降低使用成本。

在智能体能力方面，GLM-4 All Tools 支持根据用户意图自动拆解任务、规划执行流程，并调用网页浏览器、代码解释器以及多模态文生图模型来完成复杂任务。同时，面向个人与团队的 GLMs 个性化智能体定制功能也已上线，用户仅需通过简单提示词，即可创建专属智能体。

评测成绩概览

在多个通用基准测试中，GLM-4 给出了较为突出的成绩，整体表现已接近 GPT-4。

在中文指令理解与提示词跟随能力上，GLM-4 同样有不错表现。在 IFEval Prompt 提示词跟随中文测试中，达到 GPT-4 水平的 88%；在中文指令跟随方面，达到 90%。

基于 AlignBench 数据集的结果显示，GLM-4 已超过 GPT-4 2023 年 6 月 13 日版本，并接近其 11 月 6 日版本的效果。不过在中文推理与逻辑推理等方向，模型仍有进一步优化空间。

GLM-4 支持最高 128K 的上下文窗口，单次提示可处理约 300 页文本内容。在 Needle Test（大海捞针）测试中，模型在 128K 长文本范围内几乎保持 100% 的精度召回，没有明显出现因长上下文信息失焦而造成的性能下降。

GLM-4 能够根据用户需求自动理解并规划复杂任务流程，自主调用网页浏览器、代码解释器以及文生图模型 CogView3。

在遇到复杂方程求解、微积分计算等场景时，模型可自动启用代码解释器完成推导与计算。官方给出的结果显示，GLM-4 All Tools 的整体效果已达到与 GPT-4 All Tools 相近的水平。

其自动化工具能力可覆盖多种复杂工作流，包括文件处理、数据分析、图表生成等，同时支持 Excel、PDF、PPT 等多种常见文件格式。

除基础模型能力升级外，GLMs 个性化智能体定制能力也已同步开放。

这一功能意味着普通用户即使没有编程基础，也可以直接基于 GLM-4 构建并使用自己的智能体，进一步降低了大模型开发和应用门槛。

面向 2024 年，官方还提出将发起开放式大模型开源基金，以支持开源社区和开发者生态建设。

该计划包含三个“1000”：

整体来看，GLM-4 不仅在基础性能、中文能力和长上下文处理方面取得明显进展，也在工具调用、智能体构建和开发者生态支持上进一步完善，展现出国产大模型持续向前发展的趋势。