互联网资讯 / 人工智能 · 2023年12月3日 0

GPT-3:连奥赛冠军也做错的题用来测试ML模型?我不行

为评估机器学习模型在数学求解方面的能力,来自加州大学伯克利分校和芝加哥大学的研究团队推出了一个新数据集,名为 MATH,包含 12,500 道数学竞赛题目,并配合一个用于模型学习数学基础的预训练数据集 AMPS。研究结果表明,即便是大规模的 TRansfoRMeR 模型,其准确率依然不尽人意。

尽管许多学术研究聚焦于数学问题的求解,对计算机而言,这一领域仍然显得力不从心。那么,机器学习模型真的具备解决数学问题的能力吗?

为了解答这一疑问,研究者们设计了 MATH 数据集,涵盖 12,500 道数学竞赛难题,每道题目都有详细的逐步解答,旨在帮助机器学习模型生成答案和解释。为了促进后续研究并提高模型在 MATH 数据集上的表现,研究团队还创建了一个大型的辅助预训练数据集,旨在教授模型数学的基础知识。

尽管这些方法有助于提升模型在 MATH 数据集上的表现,但实验结果显示,准确率依旧低迷,TRansfoRMeR 模型也未能例外。研究人员发现,单靠增加模型的预算和参数并不能提升其数学推理能力。虽然扩展 TRansfoRMeR 模型能够自动完成大部分文本任务,但在 MATH 问题上仍然面临挑战。

例如,国际数学奥林匹克竞赛三金得主的准确率可达 90%,而 GPT-3 的准确率却仅为约 5%。

如果这一趋势持续下去,机器学习模型要获得真正的数学推理能力还需很长的路要走。

奥赛冠军都做不对的题,却被拿来考ML模型?GPT-3:我不行
数据集

在这一部分中,我们将介绍两个新数据集:一个用于测试模型的数学问题求解能力,即 MATH 数据集,另一个则是辅助预训练的 AMPS 数据集。

MATH 数据集由 12,500 个数学问题组成,其中 7,500 个用于训练,5,000 个用于测试。这些问题来源于 AMC 10、AMC 12、AIME 等数学竞赛。与大多数早期研究不同,MATH 数据集中的大部分问题无法仅通过标准 K-12 数学工具解决,人类在解答这些问题时通常需要应用问题解决策略和启发式方法。

基于这些数学问题,模型可以学习到多种实用的启发式问题解决方法,每个问题都附有逐步解答和最终答案。

该数据集的创建经过了几个重要步骤:

问题分类:数据集中包含的题目难度各异,涉及多个主题,包括算术、代数、数论、概率与统计、几何、中级代数和微积分。研究者将问题的难度标记为 1-5 级,表示从易到难。

格式化:运用 LATEX 和 AsyMptote 矢量图语言对数学问题及其解答进行统一格式处理。

自动评估生成答案:MATH 数据集的独特设计使得研究者能够自动评估模型生成的答案,尽管模型输出空间非常庞大。

人类表现:为了估算人类的解决能力,研究者从 MATH 测试集中随机选择了 20 个问题,交由大学生解答。一名不太擅长数学的参与者答对了 8 道题(准确率 40%),而两名数学爱好者分别答对了 14 和 15 道题。最终,一名在 AMC 10 竞赛中获得满分并多次参加 USAMO 的参与者答对了 18 道题,同时一名 IMO 三金得主也取得了 18 道题的正确率(90%)。这表明 MATH 数据集中的数学问题对人类而言同样具有一定挑战性。

AMPS 数据集

预训练数据对模型性能有着显著影响,而数学在在线文本中所占比例较小,因此,研究者构建了一个大型多样化的数学预训练语料库,称为 AuxiliaRy MatheMatics PRobleMs and solutions (AMPS)。该数据集包含大量数学问题及其 LATEX 格式的逐步解答。

AMPS 数据集包括 100,000 道来自可汗学院的数学问题,以及约 500 万道通过手动设计的 MatheMatica 脚本生成的问题。研究者使用 MatheMatica 的计算机代数系统生成这些数学题,以便于处理分数、超越数和解析函数。

这些问题涵盖多个主题,包括代数、微积分、统计与计数、几何、线性代数和数论。

奥赛冠军都做不对的题,却被拿来考ML模型?GPT-3:我不行
实验 模型性能

研究者通过实验评估了模型在 MATH 数据集上的表现,发现即使是性能最优的模型,其准确率依旧较低。此外,与大多数基于文本的数据集相比,该数据集的准确率在模型规模扩大时增长缓慢。如果这种趋势持续,那么在 MATH 数据集上取得显著进展,需要的不仅是模型扩展,还需要算法的改进。

根据实验结果,最小的 GPT-2 模型(参数量 0.1 亿,作为基线模型)在 MATH 数据集多个主题上的平均准确率为 5.4%,而 GPT-2(1.5 亿参数量,参数是基线模型的 15 倍)的平均准确率为 6.9%,相比基线提升了 28%。这表明,在 MATH 数据集上,增加模型参数确实能带来一定帮助,但整体准确率仍然较低,增速也缓慢。

奥赛冠军都做不对的题,却被拿来考ML模型?GPT-3:我不行

此外,研究者还测试了 AMPS 预训练的效果。未经 AMPS 预训练的 GPT-2 (1.5B) 模型在 MATH 数据集上的准确率为 5.5%;而经过 AMPS 预训练后,GPT-2 (1.5B) 在 MATH 数据集上的准确率提高至 6.9%,提升幅度达 25%。这意味着,AMPS 预训练的效果相当于将参数量提升 15 倍,表明 AMPS 数据集的价值。

在实验中,研究者还对逐步求解过程进行了评估,发现模型在生成答案之前先生成逐步解答会导致准确率下降。通过评估 GPT-2 (1.5B) 模型,发现其性能从 6.9% 降至 5.3%。

尽管如此,研究人员发现逐步求解仍然能带来一些好处:提供部分真值的逐步求解过程可以提升模型性能,在训练过程中为模型提供逐步求解过程也能提高准确率。

奥赛冠军都做不对的题,却被拿来考ML模型?GPT-3:我不行