国产大模型开始测试：支持中文优化与国产CPU训练

在GPT-4发布并带动新一轮大模型关注之后，国内相关技术也在持续推进。近期，智谱AI推出的ChatGLM开启内测，成为又一款面向中文场景优化的对话式大模型产品。

继此前开源GLM-130B千亿级基座模型后，团队又进一步开放了新的中英双语对话模型ChatGLM-6B。结合模型量化方案，这一模型可以部署在消费级显卡上，在INT4量化条件下，最低仅需6GB显存即可完成本地运行，明显降低了使用门槛。

据介绍，ChatGLM-6B经过约1T标识符的中英双语数据训练，并结合监督微调、反馈自助以及基于人类反馈的强化学习等方法进行优化。虽然其参数规模为62亿，低于千亿级模型，但在实际对话生成中，已经能够输出更贴近人类偏好的结果。

从设计思路来看，ChatGLM借鉴了主流对话大模型的构建方式，并在GLM-130B基座模型基础上加入代码预训练能力，再通过有监督微调等技术提升对用户意图的理解与对齐效果。

当前版本能力提升的重要基础，来自其背后的GLM-130B模型。该模型并非沿用BERT、GPT-3或T5的传统结构，而是采用带有多目标函数的自回归预训练架构，在中英双语能力和通用任务表现上形成了自己的特点。

GLM-130B的主要特点

2022年8月，研究团队向学术界和产业界开放了拥有1300亿参数的中英双语稠密模型GLM-130B。该模型具备以下几个方面的优势：

双语能力：同时支持中文与英文任务。
英文精度：在LAMBADA、MMLU和Big-bench-lite等公开英文自然语言评测中，表现优于GPT-3 175B、OPT-175B和BLOOM-176B。
中文精度：在7个零样本CLUE数据集和5个零样本FewCLUE数据集上，整体表现明显优于ERNIE TITAN 3.0 260B和YUAN 1.0-245B。
快速推理：作为较早实现INT4量化的千亿级模型之一，可在4张3090或8张2080Ti服务器上实现快速且基本无明显损失的推理。
可复现性：超过30项任务结果可通过开源代码与模型参数复现。
跨平台支持：可在海光DCU、华为昇腾910、申威处理器以及英伟达芯片上进行训练和推理。

2022年11月，斯坦福大学大模型中心曾对全球30个主流大模型开展系统评测，GLM-130B是当时亚洲唯一入选的模型。

从公开评测结果来看，在与OpenAI、谷歌、微软、英伟达和Meta等机构的大模型对比中，GLM-130B在准确性与恶意性指标上与GPT-3 175B（davinci）接近，在鲁棒性和校准误差等方面也表现出较强竞争力。若仅比较未经过指令微调的千亿级基座模型，其整体表现处于较高水平。