1370亿参数自回归模型在零样本任务中超越GPT-3的表现

在自然语言处理领域，零样本学习是衡量大模型通用能力的重要场景。本文介绍了一项基于1370亿参数自回归语言模型的研究工作，通过引入全新的指令调整技术，提升模型在未见任务上的零样本性能，从而在多项任务上超过了GPT-3的零样本水平。

研究者构建了一个大规模自回归语言模型，在不进行微调的前提下，尝试通过自然语言指令描述任务来引导模型完成多样化的任务。指令描述示例包括对输入文本进行情感判断、将短语翻译成目标语言等。研究团队将任务定义为一组输入-输出对，并为每个任务手动设计十个独特模板，结合自然语言指令来表达任务需求。

所使用的模型为一个从左到右、仅解码的密集型架构，参数量达到137B，经过大规模文本数据的预训练后再投入指令调整阶段。预训练数据涵盖网络文档、对话数据和百科类文本，结合子词分词技术进行表示。模型在60多个通过自然语言指令表达的任务集合上进行评估，评估结果表明，在多项任务上零样本性能显著提升。

在对比实验中，研究者将模型在25项评估任务中的零样本表现与GPT-3（1750亿参数）及其小样本性能进行比较。结果显示：在其中的19项任务上，零样本的该模型表现优于GPT-3的零样本表现，且在不少任务上甚至超过GPT-3的小样本水平，凸显了通过自然语言指令描述任务的潜力。

数据与任务聚合方面，研究团队汇集了来自 TensorFlow 数据集的62个公开文本数据集，覆盖语言理解和语言生成任务。对每个任务，研究者手动设计了多组指令模板，以便通过自然语言指令描述具体任务的输入输出关系。

在模型架构与预训练方面，所使用的为单向解码的密集型Transformer，参数量为137B。该模型在多领域文本数据上进行预训练，随后通过指令调整进行任务适配。实验结果显示，指令调整对提升零样本性能具有显著作用。

评估覆盖自然语言推理、阅读理解、开放域问答、常识推理、指代消解和翻译等多领域任务。结果表明，经过指令调整的模型在未见任务上的零样本性能显著提高，显示出使用自然语言指令描述任务的能力对零样本泛化的正向影响。

关于方法的消融研究，研究者考察了指令调整阶段中集群数量和任务数量对性能的影响。结果显示，增加合适数量的集群与任务有助于提升零样本性能，验证了通过多样化指令表达来覆盖任务需求的有效性。

总体而言，该研究证明了在不对目标任务进行微调的前提下，通过自然语言指令描述任务，可以显著提升大规模语言模型的零样本泛化能力，进而扩大其适用范围与应用场景。此方向对于未来的通用型语言模型研究具有参考价值。

互联网技术 / 互联网资讯 · 2024年3月10日