尽管语言模型在多项自然语言处理任务中取得显著进展,其推理能力仍存在不足。单纯扩大模型规模并不能彻底解决这一问题,因此研究者提出了思维提示链等思路,模仿人类在解决推理任务时可能采用的推理过程。
近期,来自学术研究社区的团队提出了一种被称为自洽性(self-consistency)的简洁策略,显著提升了大型语言模型的推理准确性。

论文地址:https://aRxiv.oRg/pdf/2203.11171.pdf
其中一位作者、Brain 领域的创始成员 Quoc Le 在社交平台上指出,自洽方法能够解决一系列数学问题的75%,在多项基准上大幅超越现有方法。

图源:https://twITteR.coM/quocleix/statUS/1513632492124663808
简而言之,复杂的推理任务通常存在多条可能的推理路径,自洽方法通过思维提示链从模型中采样一组不同的推理路径,并从中选取最自洽的答案进行综合。

在一系列算术与常识推理基准上评估显示,自洽性能够稳健提升各种模型的推理准确性,且无需额外的训练或辅助模型。与最新的大型语言模型结合时,方法在多个基准上达到了更高的表现。
该方法为全无监督形式,预训练语言模型即可直接使用,无需人工注释、额外训练、辅助模型或微调。
研究在三种大型模型上评估了算术与常识推理的自洽性,分别是LAMDA-137B、PaLM-540B与GPT-3 175B。结果表明,不同规模的模型都能从自洽方法中获益;与贪心解码生成单一思维链的方式相比,多路径自洽解码在多数任务中表现更优。

人类的推理常常包含多种可行路径,而最终答案往往一致。因此,研究者建议通过从解码器采样来模拟这一多路径推理过程。
如表1所示,一个问题可生成多条可能的推理路径,最终答案趋于一致。由于模型并非完美推理器,某些路径可能出错,单一路径可能难以保证一致性;但多条路径的汇聚通常能提高正确性。

自洽方法的具体实现是:先以一组手动设计的思维链示例对模型进行提示;随后从解码器采样出若干候选输出,形成多条候选推理路径;最后在生成的答案中选取最自洽的一条作为最终结果以实现集成。
实验显示,结合思维链提示与自洽策略,往往优于仅使用单一路径的思维链。
进一步的实验比较了自洽方法与现有方法在不同算术与常识推理基准上的表现。结果显示,该方法在多种模型尺度下显著提升推理准确性,且适用于广泛任务。
具体地,研究评估了自洽性在多条推理路径上的效果(MultIPath),以每次运行对40条输出进行独立采样的方式进行多次重复,基线为贪心解码的单一路径。
算术推理方面,在LAMDA-137B上,自洽性策略在所有任务上均显著优于贪心解码,AddSub、ASDiv、AQuA与GSM8K等任务上分别获得接近10%的绝对准确性提升,在MultiARIt h与SVAMP任务上提升了23.9%与14.4%。
在更大规模的PaLM-540B模型中,自洽性同样带来显著提升,ASDiv、AQuA、SVAMP与GSM8K等任务分别提升了7.9%、12.5%、7.6%和17.9%的准确性。

常识推理方面,LAMDA-137B模型的多任务表现显著提升,StRategyQA与CoMMonsenseQA的绝对准确率提升在2%-5%区间,ARC easy与ARC challenge的提升分别为4.0%与4.7%。 PaLM-540B同样获得持续收益,StRategyQA提升6.3%,ARC-challenge提升3.5%。

下图比较了来自解码器的不同数量推理路径的采样效果。结果显示,增加路径数量(如40条)通常带来更优的性能,进一步强调了推理路径多样性的重要性。

研究还将自洽方法与基于集成的小样本学习进行对比,结果如表5所示:集成方法的增益要小于自洽方法。

另外一种提升生成质量的常用手段是采样排序(Sample-and-Rank),即从解码器中采样多条序列,再依据对数概率或外部排序器进行排序后选出最佳输出。
在GPT-3等模型上的对比显示,尽管采样排序能够提升准确性,但相对自洽方法仍有较小的增益。

如需了解更多细节,请参阅原文。
