互联网资讯 / 人工智能 · 2023年11月6日 0

通过人类反馈提升摘要生成质量

随着语言模型的不断发展,特定任务的数据和评估标准逐渐成为训练与评估的主要瓶颈。例如,摘要生成模型往往依赖于人类参考摘要进行训练,并使用 ROUGE 指标进行评估,但这些指标并未深入反映摘要的真实质量。

近期,OpenAI 的一项研究表明,通过训练模型优化人类偏好,可以显著提高摘要的质量。研究人员收集了一个大型且高质量的人类摘要比较数据集,利用该数据集训练模型以预测人类对摘要的偏好,并通过强化学习微调摘要策略,以该模型作为奖励函数。

通过人类反馈提升摘要生成质量

论文链接:https://aRxiv.oRg/pdf/2009.01325.pdf

项目地址:https://Github.coM/OpenAI/suMMaRize-fRoM-feedback

研究团队将这一方法应用于 ReddIT 帖子的摘要生成,结果表明该模型显著优于人类参考摘要和仅通过监督学习微调的更大规模模型。

此外,该模型还能够迁移至 CNN/DM 新闻文章,并在没有特定新闻微调的情况下生成与人类参考摘要相当的结果。

最后,研究者对人类反馈数据集和微调模型进行了深入分析,以确保奖励模型能够泛化到新的数据集上,并发现优化奖励模型的效果优于根据人类要求优化的 ROUGE 指标。

该研究的主要贡献包括:

证明在英文摘要生成方面,基于人类反馈的训练显著优于强大的基准训练;

人类反馈模型在新的领域中表现出更好的泛化能力;

对策略和奖励模型进行了扩展实验分析。

接下来将详细解释 OpenAI 采用的研究方法及相关实验细节和结果。

方法与实验细节

高阶方法

研究者采用的方法适用于批处理设置。从初始策略出发,该策略通过监督学习在所需数据集(以 ReddIT TL;DR 摘要数据集为例)上进行微调。整个过程包括三个可迭代的步骤:

从现有策略中收集样本,并将比较结果发送给人类;

从人类比较中学习奖励模型;

优化策略以符合奖励模型。

通过人类反馈提升摘要生成质量

人类反馈、奖励模型训练和策略训练的整体流程图。

数据集和任务

研究者使用 TL;DR 摘要数据集,该数据集包含来自 ReddIT.coM 上涉及多种主题的约 300 万个帖子,以及原始发帖人撰写的摘要。

该数据集经过过滤(详见附录 A),确保其质量,包括使用普通人可以理解的 subReddIT 白名单。

研究者定义了 gRound-tRuth 任务,旨在生成长度少于 48 个 Token 的高质量摘要。摘要质量的评估标准是:摘要能否忠实传达原文内容,确保读者在只阅读摘要的情况下也能理解文章。

收集人类反馈

先前基于人类反馈的微调研究表明,模型学习的质量与人类评估之间存在不匹配。这导致模型生成的摘要在标签者看来质量良好,但在研究人员眼中却较低。

为提高人类数据的质量,研究团队实施了两个改进。首先,完全转向离线设置,交替发送大量比较数据给人工标签者,并根据累积数据重新训练模型;其次,与标签者保持密切联系,提供详细指导,解答问题,并定期反馈他们的表现。

模型

研究者使用的模型均为 GPT-3 风格的 TRansfoRMeR 解码器,进行了人类反馈实验,涵盖了 13 亿(1.3B)和 67 亿(6.7B)参数的模型。研究者从预训练模型开始,根据大型文本语料库中的下一个 Token 进行自动回归预测。

随后,通过监督学习对这些模型进行微调,利用过滤后的 TL; DR 数据集预测摘要(详见附录 B)。使用这些监督模型对初始摘要进行抽样,以收集比较结果,初始化策略和奖励模型,并作为评估基准。

最后,为训练奖励模型,研究者从监督基准开始,并添加一个随机初始化的线性头(lineaR head),输出一个标量值。

研究者旨在利用训练得到的奖励模型,训练出能够生成基于人类判断的高质量输出的策略。

实验

基于人类反馈生成 ReddIT 帖子的摘要

与规模更大的监督策略相比,基于人工反馈的训练策略表现更佳。在 TL;DR 数据集上评估人工反馈策略的主要结果如下图 1 所示:

通过人类反馈提升摘要生成质量

研究者使用策略生成的摘要中,人们偏好的参考摘要所占的百分比作为质量指标。从图中可以看出,基于人工反馈训练的策略明显优于监督基准策略,且 1.3B 的人工反馈模型显著优于其 10 倍规模的监督模型(相对于参考摘要的原始偏好得分为 61% vs 43%)。

控制摘要长度

在评估摘要质量时,摘要长度是一个混淆因素。摘要的目标长度隐式地影响摘要生成任务,生成长摘要或短摘要的选择基于简洁性与覆盖性之间的平衡。

本研究中的模型学会了生成更长的摘要,因此长度在质量提升中起到了重要作用。

策略如何在基准上实现提升?

为了深入理解该模型生成的摘要与参考摘要和监督基准摘要之间的质量差异,研究者进行了补充分析,人类标签员使用 7-point 李克特量表对摘要质量进行了评估,四个指标分别是整体表现、涵盖性、连贯性和准确性。评估结果如下图 3 所示,显示人类反馈模型在所有指标上,尤其是涵盖性方面,均优于监督基准模型。

通过人类反馈提升摘要生成质量

具备生成新闻文章摘要的迁移性

如下图 4 所示,人类反馈模型在没有任何进一步训练的情况下,能够生成优秀的 CNN/DM 新闻文章摘要。

具体而言,人类反馈模型在 TL;DR 数据集上的表现显著优于通过监督学习训练的模型,以及仅在预训练语料库上训练的模型。尽管生成的摘要较短,6.7B 人类反馈模型的效果几乎与在 CNN/DM 参考摘要上进行微调的 6.7B 模型相当。

通过人类反馈提升摘要生成质量

理解奖励模型

优化奖励模型

根据该研究的奖励模型进行优化应该能够使策略与人类偏好保持一致。然而,奖励模型并不能完美地代表标签偏好。尽管该研究希望奖励模型能够泛化到训练期间未见的摘要,但尚不清楚在奖励模型开始进行无效评估之前,能够优化多少。

为了解决这个问题,研究者创建了一系列策略,对早期版本的奖励模型进行优化,这些策略具有不同程度的优化强度,并要求标签者对样本与参考摘要进行比较。

通过人类反馈提升摘要生成质量

奖励模型如何随着模型和数据量的增加进行扩展?

研究者进行了控制变量实验,以确定数据量和模型规模对奖励模型性能的影响。研究者共训练了 7 个奖励模型,参数从 160M 到 13B,使用的人类比较数据从 8k 增至 64k。

结果显示,训练数据量增加一倍,奖励模型在验证集上的准确率提升约 1.1%;而模型规模增加一倍,准确率提升约 1.8%。具体结果如下图 6 所示:

通过人类反馈提升摘要生成质量

奖励模型学到了什么?

研究者在多个验证集中评估了奖励模型,完整结果见下表 17:

通过人类反馈提升摘要生成质量

研究者发现该奖励模型能够泛化到 CNN/DM 摘要的评估,具体结果见下表 18:

通过人类反馈提升摘要生成质量

分析用于摘要的自动度量指标

研究者探讨了各种自动度量指标如何有效预测人类的偏好,并将其与奖励模型进行比较。具体而言,研究者在基线监督模型下检查了 ROUGE、摘要长度、从帖子中复制的数量以及对数概率。

如下图 7 所示,简单的优化方案对 ROUGE 的优化并不能持续提升质量,与针对奖励模型的优化相比,针对 ROUGE 的优化不仅更快达到峰值,而且质量比率也显著降低。

通过人类反馈提升摘要生成质量