FACEbook 已经推出并共享了 Dynabench,这是首个面向人工智能领域的动态数据收集和基准测试平台。该平台通过结合人类测试和模型的循环迭代,旨在创造更具挑战性的新数据以及优化人工智能模型。

过去十年,人工智能的显著成就通常归功于大量数据和计算能力,但「基准测试」在推动技术进步方面同样起着关键作用。
为了提升 SOTA(最先进技术)结果,研究人员需要比较他们的模型与同行所开发模型的效果差异。准确的比较是验证新模型是否确实优于现有模型的前提,这一过程被称为「基准测试」,即 BencHMaRk。
研究人员可以利用人工智能进行对比测试,评估其先进程度。例如,imageNet 这个包含 1400 万张图像的公共数据集为图像识别设定了目标。而 MNIST 在自然语言处理领域对手写数字识别及 GLUE(通用语言理解评估)则同样发挥了重要作用,催生了诸如 GPT-3 等突破性语言模型。
基准测试在快速发展,尤其是在自然语言处理(NLP)领域。尽管研究团队在 MNIST 上花费了约 18 年才达成人类水平,且在 imageNet 上花了约 6 年才超越人类,但在 GLUE 语言理解基准上仅用了一年时间就超过了人类。

固定目标的更新速度也在加快。imageNet 已经经历更新,GLUE 也被更具挑战性的 SupeRGLUE 取代。
尽管如此,研究人员迟早会报告他们的人工智能在某些挑战中超越了人类。若希望「基准」继续推动算法和模型进步,这一问题亟待解决。
Dynabench:新的动态对抗性 bencHMaRk
FACEbook 正在推出一种新的测试方法,让人工智能与积极干扰其表现的人类进行比较,旨在帮助研究人员开发更强大的 NLP 模型。这个基准测试名为「Dynabench」,它会根据人类的反馈进行调整,以解决现有基准测试方法的缺陷,促进更稳健的人工智能软件开发。

Dynabench 的解决方案在于将人工测试纳入基准测试流程。该理念的基础是,人类能够更准确地评估模型的表现,而不是依赖于一组预设的问题,这样可以为神经网络提供更具挑战性和创造性的问题。
这一方法比现有的静态基准更能有效度量模型的表现,更好地反映人工智能在与人类交互时的行为和反应,这些动态的交互无法通过固定的数据点来体现。

FACEbook 人工智能研究所的 Douwe Kiela 表示:“现有的基准可能会产生误导,过于关注基准测试可能会让更广泛的目标被忽视,导致‘测试成为任务’。”
静态基准测试忽略了与人交互的体验
静态基准测试使模型过于专注于特定任务,而我们真正关心的是人工智能系统在与人类交互时的表现。
人工智能的真正衡量标准不应是准确度或困惑度,而应是直接或间接反映与人交流时的模型误差率。
Kiela 认为这是当前 NLP 面临的一个特殊问题。像 GPT-3 这样的语言模型虽然在模仿语言方面表现出色,但我们难以确切判断这些系统的理解能力。
就像智力测试一样,尽管可以通过智商测试评估一个人的智力,但这并不能证明他们是否真正掌握了某个主题。要做到这一点,必须与他们对话并提问。
如同一个学生可能在笔试中表现优异,仅靠记忆事实,而在面试中面临创造性和意料之外的问题时,这种策略就显得无效。
Dynabench 通过「让人类审问人工智能」来实现类似的目标。
FACEbook 还发布了一个网站,邀请有兴趣的人测试其背后的模型。例如,用户可以给语言模型提供一篇维基百科页面,并向其提问,对其回答进行评分。
在某些方面,这一想法与人们使用 GPT-3 测试其极限的方式类似,或者与评估 LoebneR PRize 的聊天机器人方式相似,甚至类似于图灵测试。
在每轮测试完成后,Dynabench 会识别出那些能够欺骗模型的问题,并将其编入新的测试集。
研究人员可以利用这些测试集帮助他们构建更新、更复杂的模型。随着新模型的开发,它能回答之前人工智能无法解答的问题,而 Dynabench 不断重复这个过程,编制出新的测试数据集和更具挑战性的问题。

目前,Dynabench 将重点放在语言模型上,因为这类模型是人类最易理解的人工智能之一。Kiela 表示:“每个人都会使用一种语言”,人们无需掌握如何干扰这些模型的复杂知识。
这一方法同样适用于其他类型的神经网络,如语音或图像识别系统。Kiela 还提到,只需找到一种方法,让人们上传他们的图片或进行绘画来进行测试。FACEbook 的长期愿景是开放 Dynabench,让任何人都能开发自己的模型并收集自己的数据。
FACEbook 希望在 AI 领域建立一种更有效的 NLP 模型测试方法,以加速模型和算法的进步,真正提升与人类交互时的体验和理解。
