新的动态基准测试Dynabench发布，用于通过人类提问评估人工智能。

FACEbook 已经推出并共享了 Dynabench，这是首个面向人工智能领域的动态数据收集和基准测试平台。该平台通过结合人类测试和模型的循环迭代，旨在创造更具挑战性的新数据以及优化人工智能模型。

过去十年，人工智能的显著成就通常归功于大量数据和计算能力，但「基准测试」在推动技术进步方面同样起着关键作用。

为了提升 SOTA（最先进技术）结果，研究人员需要比较他们的模型与同行所开发模型的效果差异。准确的比较是验证新模型是否确实优于现有模型的前提，这一过程被称为「基准测试」，即 BencHMaRk。

研究人员可以利用人工智能进行对比测试，评估其先进程度。例如，imageNet 这个包含 1400 万张图像的公共数据集为图像识别设定了目标。而 MNIST 在自然语言处理领域对手写数字识别及 GLUE（通用语言理解评估）则同样发挥了重要作用，催生了诸如 GPT-3 等突破性语言模型。

基准测试在快速发展，尤其是在自然语言处理（NLP）领域。尽管研究团队在 MNIST 上花费了约 18 年才达成人类水平，且在 imageNet 上花了约 6 年才超越人类，但在 GLUE 语言理解基准上仅用了一年时间就超过了人类。

新的动态基准测试Dynabench发布，用于通过人类提问评估人工智能。

固定目标的更新速度也在加快。imageNet 已经经历更新，GLUE 也被更具挑战性的 SupeRGLUE 取代。

尽管如此，研究人员迟早会报告他们的人工智能在某些挑战中超越了人类。若希望「基准」继续推动算法和模型进步，这一问题亟待解决。

Dynabench：新的动态对抗性 bencHMaRk

FACEbook 正在推出一种新的测试方法，让人工智能与积极干扰其表现的人类进行比较，旨在帮助研究人员开发更强大的 NLP 模型。这个基准测试名为「Dynabench」，它会根据人类的反馈进行调整，以解决现有基准测试方法的缺陷，促进更稳健的人工智能软件开发。

新的动态基准测试Dynabench发布，用于通过人类提问评估人工智能。

Dynabench 的解决方案在于将人工测试纳入基准测试流程。该理念的基础是，人类能够更准确地评估模型的表现，而不是依赖于一组预设的问题，这样可以为神经网络提供更具挑战性和创造性的问题。

这一方法比现有的静态基准更能有效度量模型的表现，更好地反映人工智能在与人类交互时的行为和反应，这些动态的交互无法通过固定的数据点来体现。

新的动态基准测试Dynabench发布，用于通过人类提问评估人工智能。

FACEbook 人工智能研究所的 Douwe Kiela 表示：“现有的基准可能会产生误导，过于关注基准测试可能会让更广泛的目标被忽视，导致‘测试成为任务’。”

静态基准测试忽略了与人交互的体验

静态基准测试使模型过于专注于特定任务，而我们真正关心的是人工智能系统在与人类交互时的表现。

人工智能的真正衡量标准不应是准确度或困惑度，而应是直接或间接反映与人交流时的模型误差率。

Kiela 认为这是当前 NLP 面临的一个特殊问题。像 GPT-3 这样的语言模型虽然在模仿语言方面表现出色，但我们难以确切判断这些系统的理解能力。

就像智力测试一样，尽管可以通过智商测试评估一个人的智力，但这并不能证明他们是否真正掌握了某个主题。要做到这一点，必须与他们对话并提问。

如同一个学生可能在笔试中表现优异，仅靠记忆事实，而在面试中面临创造性和意料之外的问题时，这种策略就显得无效。

Dynabench 通过「让人类审问人工智能」来实现类似的目标。

FACEbook 还发布了一个网站，邀请有兴趣的人测试其背后的模型。例如，用户可以给语言模型提供一篇维基百科页面，并向其提问，对其回答进行评分。

在某些方面，这一想法与人们使用 GPT-3 测试其极限的方式类似，或者与评估 LoebneR PRize 的聊天机器人方式相似，甚至类似于图灵测试。

在每轮测试完成后，Dynabench 会识别出那些能够欺骗模型的问题，并将其编入新的测试集。

研究人员可以利用这些测试集帮助他们构建更新、更复杂的模型。随着新模型的开发，它能回答之前人工智能无法解答的问题，而 Dynabench 不断重复这个过程，编制出新的测试数据集和更具挑战性的问题。

新的动态基准测试Dynabench发布，用于通过人类提问评估人工智能。

目前，Dynabench 将重点放在语言模型上，因为这类模型是人类最易理解的人工智能之一。Kiela 表示：“每个人都会使用一种语言”，人们无需掌握如何干扰这些模型的复杂知识。

这一方法同样适用于其他类型的神经网络，如语音或图像识别系统。Kiela 还提到，只需找到一种方法，让人们上传他们的图片或进行绘画来进行测试。FACEbook 的长期愿景是开放 Dynabench，让任何人都能开发自己的模型并收集自己的数据。

FACEbook 希望在 AI 领域建立一种更有效的 NLP 模型测试方法，以加速模型和算法的进步，真正提升与人类交互时的体验和理解。

互联网资讯 / 人工智能 · 2023年11月10日 0