互联网资讯 / 人工智能 · 2023年12月3日 0

AI攻克全球最具挑战性的沙雕游戏

十三年前,一款极具挑战性的游戏曾引起广泛关注。

这款游戏名为QWOP,玩法是通过四个键位控制角色的左右大腿和小腿,目标是在最短时间内跑完100米。

实际上,大多数玩家在刚开始时,可能连起跑线都没有跨过就会失败。

如果你能跑出几米远,那你绝对可以自豪地向朋友炫耀。

QWOP的难点在于,角色一旦失去平衡,就很难恢复,必须在100米的距离内保持重心稳定。

而当你经过多次练习成功跑起来时,50米处的障碍栏又会给你设置障碍:怎么短跑还要跨栏呢?

在4399小游戏盛行的时代,QWOP被戏称为“是男人就跑100米”,因为其难度之高,开发者曾收到不少骂声。

尽管绝大部分人难以完成挑战,仍有一群狂热玩家乐此不疲,有人不仅能轻松达到终点,甚至还在为争夺世界排名而不断努力。

两个月前,一位日本玩家创造了新的世界纪录:48.34秒。

见到这款“沙雕游戏”,你可能会联想到通过强化学习训练双足机器人。

来自波士顿咨询的数据分析师Wesley Liao也有这样的想法。

不过,别以为这种高难度的游戏在AI面前就会变得简单。

Liao结合多种强化学习算法,并请来“世界顶尖”的教师进行指导,经过不懈努力,最终在上周让AI打破了人类的记录。

这说明这款游戏的难度丝毫不亚于围棋。

一开始,Liao使用OpenAI Gym的强化学习环境来训练AI,设定了游戏的状态、操作和奖励机制。

状态包括身体各部位和关节的位置、速度和角度,操作方式限定为11种:4个QWOP按键、6种组合按键及不按任何键。

用来训练AI的算法是ACER(具有经验回放的行动-评价算法),这种算法的优点在于不仅可以从最近的经验中学习,还能回顾之前存储的数据。

由于ACER算法较为复杂,Liao使用了他人的实现代码“Stable Baselines”。

起初,Liao让AI自主学习,经过多次实验,他发现AI仅仅学会了用“蹭膝盖”的方式通过终点,速度极其缓慢。

这与许多普通玩家及其他强化学习算法的表现类似,距离高手的水平还差得远,更不用说打破记录了。

经过仔细分析,发现AI根本没有掌握跨步的技巧,只是学会了最安全和最慢的方式到达终点。

显然,单靠AI自学行不通。

就像DeepMind让顶级棋手教AlphaGo下棋,Liao想到是否可以请人类玩家来教导AI。

但由于Liao的技术与顶级玩家相差甚远,他自己最多也只能跑到28米。

这并不重要,重要的是希望AI能从他的“渣技术”中学习到一些奔跑的技巧。

然而结果不如人意,AI不仅没有掌握跑步技巧,反而在起点跌倒了。

随后,Liao让AI继续自我训练。所谓师父领进门,修行在个人,AI能否将人类的技术与自学能力结合起来?

结果令人振奋,经过90小时的训练,AI终于学会了像人类一样奔跑!

最终的成绩是1分25秒,已经在全球排行榜中进入前15名,离超越人类不远了。

接下来需要教授AI更多的技巧,然而Liao的技术依旧有限。

为了进一步提升AI的水平,他必须寻求顶级高手的帮助。

Liao观察速通排行榜上的录像,发现顶级玩家的技巧在于提高左腿的抬高幅度可以加速。

他开始向排名前二的玩家gunManeko和KuRodo请教踢腿技巧。

两位玩家热情回答了他的疑问,其中KuRodo指出这个技巧的关键在于减少角色的纵向移动,并建议将保持身体高度的奖励函数加入AI。

Liao与KuRodo分享了他的代码,KuRodo慷慨地记录了50次自己游戏时的按键并发给Liao。

Liao试图利用这些数据对AI进行预训练,但收效甚微。AI在学习踢腿技巧前,基本跑步方法反而被遗忘了。

Liao不得不改变策略,他将KuRodo的数据注入到AI的回放缓存中,以便AI在每次训练时随机选取两种记忆,确保不会在学习新技巧时忘记基本操作。

AI使用KuRodo的数据训练了15个小时,终于学会了踢腿,但由于两种记忆无法协调,长时间跑动时动作不够稳定。

此时,Liao移除KuRodo的记忆,再让AI自我训练25小时,总训练时间达到65小时。

最终,AI的成绩达到了1分08秒,成功进入前十。

Liao将教AI玩这个游戏的过程制作成视频发布在网上。一个月前,外媒GiSModo问他,为什么AI还未打破世界纪录?

于是Liao重新训练了一个专注于速度的新AI。

新AI采用PRioritized DDQN算法,这种算法为学习效率更高的状态赋予权重,而非均匀采样,使得新AI能迅速掌握旧AI已掌握的技巧。

同时,新AI的奖励函数去掉了身体高度和膝盖弯曲角度等参数,仅与前进速度相关。

新AI在已有数据的基础上进行几分钟的预训练,然后进行了40小时的自我训练。最终,新AI每秒的动作数在训练环境中从9提升到18,在测试环境中达到了25。

新AI对踢腿技巧的掌握非常稳定,即使受到障碍物的干扰也能迅速恢复。

快速而高效的动作使AI的成绩提高至47.34秒,比人类最高纪录快了整整1秒。

这标志着人工智能在游戏领域又新增了一项超越人类的成就。

完成100米的挑战并不算完,这款游戏还有一种世界级难度——“是男人就跑完马拉松”。

为Liao提供帮助的玩家KuRodo最近刚刚提交了马拉松的世界纪录,全球仅有两人完成此壮举。

难以想象他们在电脑前连续数小时按键的场景。

另外,QWOP的开发者Bennett Foddy一直在持续开发这类高难度的独立小游戏。

其中一款名为Getting Over It with Bennett Foddy,中文名为“掘地求升”,玩法是一个装在坛子里的人不断使用锤子来提高自己的高度。

Foddy曾在普林斯顿大学和牛津大学担任博士后研究员,如今是一名独立游戏设计师。QWOP正是他在普林斯顿大学时开发的作品。

我只能说,学霸开发的游戏,学渣真的玩不起。