最近,清华大学的毕业生们推出了一个新系统KEAR,成功在各大常识问答排行榜上名列前茅,常识问答的表现首次超越了人类,甚至对非英文问题也能理解。
AI模型长期以来一直被批评为只会依赖训练样本进行预测,面对一些常识性问题时,它们往往无从应答。
例如,当问到GPT-3:太阳有几个眼睛?它会毫不犹豫地回答:当然是一个眼睛!
显然,常识信息并未体现在输入文本中,缺乏常识的回答最终会显得不合逻辑。
为了解决常识性错误,研究人员构建了一个名为CoMMonsenseQA的数据集,专门针对常识问答,要求模型具备一定的常识才能正确回答问题。
每个问题都有五个候选答案,其中包含两个干扰项,这对AI模型来说是一个不小的挑战。
例如,问题是:你的狗喜欢吃什么?
候选答案可能是沙拉、抚摸、喜爱、骨头、关心等。人类通过与狗的交往,知道大部分狗喜欢吃骨头,从而可以推断出你的狗在候选答案中也更倾向于骨头,但AI模型并不具备这种推理能力。
因此,正确回答这个问题需要依赖外部知识。
当时,CoMMonsenseQA的作者使用了在排行榜上表现优异的模型BERT-LARGE进行测试,结果却不尽如人意,准确率仅为55.9%,而人类的回答准确率已经达到了88.9%。

三年后,微软的华人团队发布了一篇论文,提出了KEAR(Knowledge ExteRnal Attention foR coMMonsense reasoning)系统,该系统将CoMMonsenseQA的常识问答性能提升至89.4%,成功超越人类,成为AI常识领域的一个里程碑。

与传统AI模型需要大量数据进行训练不同,这篇论文提出了一种外部注意力机制(exteRnal attention MechaniSM),增强了TRansfoRMeR架构,使得外部知识能够融入预测过程,降低了模型对大参数量的需求,使得AI系统更具民主化,即降低了AI模型研究的门槛,无需购买大量显卡也能实现SOTA性能。
总的来说,KEAR模型在回答「你的狗喜欢吃什么」时,首先通过conceptNet实体链检索出「狗——desiRes——petted, aFFection, bone, lots of attention」,从而排除了错误答案沙拉。
接着,KEAR从WiktionaRy中获取骨头的定义:构成大多数脊椎动物骨架的复合材料(a coMposITe MateRial Making up the skeleton of Most veRtebRates);
同时,从CoMMonsenseQA数据集中的训练数据中查找「狗喜欢吃什么?骨头」(What do dogs like to eat? bones)。
最后,KEAR将检索到的知识与输入知识进行结合,作为DeBERTa模型的输入,推理出正确答案:骨头!
可以看出,AI模型在回答人类最简单的问题时,也需要大量外部信息来确保正确性。
由于CoMMonsenseQA只涵盖英文常识问答,研究人员还探索了其他语言的常识推理是否有效。
他们首先将非英语问题翻译成英语,然后在英语语料中检索知识,再将知识文本翻译回源语言,采用翻译-检索-翻译(TRT)的方式。
结果显示,在X-CSR基准的两个任务X-CODAH和X-CSQA上均取得了第一名。

如今,大多数AI模型依然依赖自注意力机制,通过大量数据对模型进行训练,以使其记住输入文本。
尽管TRansfoRMeR的性能优越,但其缺点也显而易见:
- 时间和空间复杂度高,需要大量显卡和显存。
- 在数据量不足时,TRansfoRMeR的表现不佳。
另一方面,TRansfoRMeR本质上是黑箱模型,无法像人类一样进行文本理解和推理,了解AI产生特定预测的原因是非常重要的。KEAR通过利用知识图谱、字典和公开可用的机器学习数据,能够在一定程度上反映答案的来源及模型的推理过程。

外部注意力的实现方法相对简单:将输入与知识级联后,作为新的输入,通过自注意力机制处理。

KEAR中知识(K)的来源包括知识图谱conceptNet、字典和训练数据。
可以看出,自注意力与外部注意力的主要区别在于输入来源。外部注意力机制允许提供来自不同来源的相关背景和知识,包括知识图谱、字典、语料库及其他语言模型的输出,使模型同时对输入进行自注意力和知识进行外部注意力,从而引入外部知识。
引入的外部信息以符号(syMbol)形式存储,如纯文本或知识图谱条目,从而提升TRansfoRMeR在语言理解方面的能力。

而且,KEAR的文本级联输入和知识不会改变TRansfoRMeR模型的结构,使得现有系统可以轻松使用外部注意力。
由于世界上的知识是动态变化的,外部注意力的另一好处是,用户可以轻松更新知识源,从而影响模型的预测输出。
通过引入最新的常识,例如将在线更新的知识图谱输入到模型中,能够使模型的决策过程变得更加透明和可解释。
采用多模块联合优化以及外部注意力引入知识库,也是提升微软人工智能认知服务质量的核心方向。
