在自然语言处理领域,零样本学习是衡量大模型通用能力的重要场景。本文介绍了一项基于1370亿参数自回归语言模型的研究工作,通过引入全新的指令调整技术,提升模型在未见任务上的零样本性能,从而在多项任务上超过了GPT-3的零样本水平。
研究者构建了一个大规模自回归语言模型,在不进行微调的前提下,尝试通过自然语言指令描述任务来引导模型完成多样化的任务。指令描述示例包括对输入文本进行情感判断、将短语翻译成目标语言等。研究团队将任务定义为一组输入-输出对,并为每个任务手动设计十个独特模板,结合自然语言指令来表达任务需求。
所使用的模型为一个从左到右、仅解码的密集型架构,参数量达到137B,经过大规模文本数据的预训练后再投入指令调整阶段。预训练数据涵盖网络文档、对话数据和百科类文本,结合子词分词技术进行表示。模型在60多个通过自然语言指令表达的任务集合上进行评估,评估结果表明,在多项任务上零样本性能显著提升。
在对比实验中,研究者将模型在25项评估任务中的零样本表现与GPT-3(1750亿参数)及其小样本性能进行比较。结果显示:在其中的19项任务上,零样本的该模型表现优于GPT-3的零样本表现,且在不少任务上甚至超过GPT-3的小样本水平,凸显了通过自然语言指令描述任务的潜力。
数据与任务聚合方面,研究团队汇集了来自 TensorFlow 数据集的62个公开文本数据集,覆盖语言理解和语言生成任务。对每个任务,研究者手动设计了多组指令模板,以便通过自然语言指令描述具体任务的输入输出关系。
在模型架构与预训练方面,所使用的为单向解码的密集型Transformer,参数量为137B。该模型在多领域文本数据上进行预训练,随后通过指令调整进行任务适配。实验结果显示,指令调整对提升零样本性能具有显著作用。
评估覆盖自然语言推理、阅读理解、开放域问答、常识推理、指代消解和翻译等多领域任务。结果表明,经过指令调整的模型在未见任务上的零样本性能显著提高,显示出使用自然语言指令描述任务的能力对零样本泛化的正向影响。
关于方法的消融研究,研究者考察了指令调整阶段中集群数量和任务数量对性能的影响。结果显示,增加合适数量的集群与任务有助于提升零样本性能,验证了通过多样化指令表达来覆盖任务需求的有效性。
总体而言,该研究证明了在不对目标任务进行微调的前提下,通过自然语言指令描述任务,可以显著提升大规模语言模型的零样本泛化能力,进而扩大其适用范围与应用场景。此方向对于未来的通用型语言模型研究具有参考价值。
