一组智能体在面对全新的游戏任务时,展现出了出色的解决能力。
例如,在以下这个高地场景中,它们需要获取顶部的紫色金字塔。

尽管没有跳跃功能,它们起初似乎在随意投掷物体,但实际上其中一块板子意外地成为了通往目标的楼梯,任务成功完成。

或许你会认为这只是一种巧合,但多次实验表明,这些智能体能够重复这种方法!
它们甚至能想出多种解决方案——例如直接利用板子将目标推下来!

这种表现真让人惊讶!
这些智能体来自于 DeepMind。
为了提升 AI 的多样性和应变能力,研究团队构建了一个名为 XLand 的开放世界,其包含数十亿个游戏任务,使智能体通过数以亿计的训练获得了卓越的泛化能力。

最终效果如同前面展示的,它们无需从零开始训练,就能自主应对新游戏中的挑战!
DeepMind 因此发表了一篇论文,题为:《从开放学习走出来的通用智能体》。

那么,它们是如何实现这一切的呢?
XLand
这个巨大的模拟环境是成功的关键之一。
在这个环境中,数不胜数的游戏被划分为不同的星球,依据竞争性、平衡性、选择性和探索难度等四个维度进行分类。

例如,左上角的图示中,蓝色智能体需要将黄色立方体放到白色区域,而红色智能体则要将同一立方体放入蓝色区域。

这场竞争让人感到压力,竞争性值达到了极高的水平,而由于两方的目标一致,平衡性值也相对较高,定位目标区域的过程中探索难度也不容小觑。
再看右上角的例子:蓝色和红色智能体需要将几何形状按颜色进行分类,完成任意一组配对即可。这个游戏在选择性上表现突出,但竞争性较低。

注:蓝色游戏代表完全竞争性,粉色则为完全合作性。
无论是哪种类型的游戏任务,这些智能体都从简单的任务开始,逐步解锁更复杂的挑战,每项游戏都提供奖励,智能体的目标是最大化获得的奖励。
智能体通过解析任务描述和观察 RGB 图像来感知周围环境,从而完成任务。
新任务的生成是基于旧任务,并且难度适中。
除了开放式学习环境,训练方法也至关重要。
研究人员采用的神经网络训练架构利用了一种针对智能体内部循环状态的注意力机制——通过对所玩游戏的子目标进行估计,持续引导智能体的注意力。

这种策略使智能体能够学习到更具普遍性的策略。
还有一个问题:在如此广阔的游戏环境中,什么样的任务分布最有助于培养善于泛化的智能体呢?
研究人员通过不断调整智能体的游戏分布发现,每个新任务都需基于已通关的旧任务生成,难度既不能过高,也不能过低。
这与一般认知相符。
它们经历了四次迭代:
每个任务由多个智能体共同参与竞争,在旧任务上表现优秀的智能体将带着权重、瞬时任务分布和超参数等参与到新一轮任务的学习中,同时也会纳入新的智能体以增加竞争。

智能体们表现出了显著的零样本学习能力。
最终生成的第五代智能体在 XLand 的 4000 多个游戏中完成了约 70 万个游戏,每个智能体经历了 2000 亿次训练,完成了 340 万个独特任务。
到此为止,这些智能体已经能够顺利完成每一项评估任务。
整个实验表明,通过开发像 XLand 这样的环境及开放式训练方法,一些基于强化学习的智能体展现出了明显的零样本学习能力(0-shot)。

研究人员观察到,智能体在面临新任务时虽然一开始并不确定,但它们会不断尝试直到达到目标。
在这个过程中,除了前面提到的利用板子搭梯子的例子,还有一个有趣的例子:在某个游戏中,智能体需要从三个目标中选择一个完成:
1、将黑色金字塔放到黄色球体旁边;
2、将紫色球体放到黄色金字塔旁边;
3、将黑色金字塔放到橙色区域。
它一开始选择了黑色金字塔,打算完成目标 3,但在搬运过程中看到了黄色球体,便在一瞬间改变了主意,选择将金字塔放在黄色球体旁边来完成目标 1。

最后,阅读完 DeepMind 的研究,我们不禁要问:我们距离真正的通用人工智能还有多远?
论文地址:
https://aRxiv.oRg/abs/2107.12808
