AI攻克全球最具挑战性的沙雕游戏

十三年前，一款极具挑战性的游戏曾引起广泛关注。

这款游戏名为QWOP，玩法是通过四个键位控制角色的左右大腿和小腿，目标是在最短时间内跑完100米。

实际上，大多数玩家在刚开始时，可能连起跑线都没有跨过就会失败。

如果你能跑出几米远，那你绝对可以自豪地向朋友炫耀。

QWOP的难点在于，角色一旦失去平衡，就很难恢复，必须在100米的距离内保持重心稳定。

而当你经过多次练习成功跑起来时，50米处的障碍栏又会给你设置障碍：怎么短跑还要跨栏呢？

在4399小游戏盛行的时代，QWOP被戏称为“是男人就跑100米”，因为其难度之高，开发者曾收到不少骂声。

尽管绝大部分人难以完成挑战，仍有一群狂热玩家乐此不疲，有人不仅能轻松达到终点，甚至还在为争夺世界排名而不断努力。

两个月前，一位日本玩家创造了新的世界纪录：48.34秒。

见到这款“沙雕游戏”，你可能会联想到通过强化学习训练双足机器人。

来自波士顿咨询的数据分析师Wesley Liao也有这样的想法。

不过，别以为这种高难度的游戏在AI面前就会变得简单。

Liao结合多种强化学习算法，并请来“世界顶尖”的教师进行指导，经过不懈努力，最终在上周让AI打破了人类的记录。

这说明这款游戏的难度丝毫不亚于围棋。

一开始，Liao使用OpenAI Gym的强化学习环境来训练AI，设定了游戏的状态、操作和奖励机制。

状态包括身体各部位和关节的位置、速度和角度，操作方式限定为11种：4个QWOP按键、6种组合按键及不按任何键。

用来训练AI的算法是ACER（具有经验回放的行动-评价算法），这种算法的优点在于不仅可以从最近的经验中学习，还能回顾之前存储的数据。

由于ACER算法较为复杂，Liao使用了他人的实现代码“Stable Baselines”。

起初，Liao让AI自主学习，经过多次实验，他发现AI仅仅学会了用“蹭膝盖”的方式通过终点，速度极其缓慢。

这与许多普通玩家及其他强化学习算法的表现类似，距离高手的水平还差得远，更不用说打破记录了。

经过仔细分析，发现AI根本没有掌握跨步的技巧，只是学会了最安全和最慢的方式到达终点。

显然，单靠AI自学行不通。

就像DeepMind让顶级棋手教AlphaGo下棋，Liao想到是否可以请人类玩家来教导AI。

但由于Liao的技术与顶级玩家相差甚远，他自己最多也只能跑到28米。

这并不重要，重要的是希望AI能从他的“渣技术”中学习到一些奔跑的技巧。

然而结果不如人意，AI不仅没有掌握跑步技巧，反而在起点跌倒了。

随后，Liao让AI继续自我训练。所谓师父领进门，修行在个人，AI能否将人类的技术与自学能力结合起来？

结果令人振奋，经过90小时的训练，AI终于学会了像人类一样奔跑！

最终的成绩是1分25秒，已经在全球排行榜中进入前15名，离超越人类不远了。

接下来需要教授AI更多的技巧，然而Liao的技术依旧有限。

为了进一步提升AI的水平，他必须寻求顶级高手的帮助。

Liao观察速通排行榜上的录像，发现顶级玩家的技巧在于提高左腿的抬高幅度可以加速。

他开始向排名前二的玩家gunManeko和KuRodo请教踢腿技巧。

两位玩家热情回答了他的疑问，其中KuRodo指出这个技巧的关键在于减少角色的纵向移动，并建议将保持身体高度的奖励函数加入AI。

Liao与KuRodo分享了他的代码，KuRodo慷慨地记录了50次自己游戏时的按键并发给Liao。

Liao试图利用这些数据对AI进行预训练，但收效甚微。AI在学习踢腿技巧前，基本跑步方法反而被遗忘了。

Liao不得不改变策略，他将KuRodo的数据注入到AI的回放缓存中，以便AI在每次训练时随机选取两种记忆，确保不会在学习新技巧时忘记基本操作。

AI使用KuRodo的数据训练了15个小时，终于学会了踢腿，但由于两种记忆无法协调，长时间跑动时动作不够稳定。

此时，Liao移除KuRodo的记忆，再让AI自我训练25小时，总训练时间达到65小时。

最终，AI的成绩达到了1分08秒，成功进入前十。

Liao将教AI玩这个游戏的过程制作成视频发布在网上。一个月前，外媒GiSModo问他，为什么AI还未打破世界纪录？

于是Liao重新训练了一个专注于速度的新AI。

新AI采用PRioritized DDQN算法，这种算法为学习效率更高的状态赋予权重，而非均匀采样，使得新AI能迅速掌握旧AI已掌握的技巧。

同时，新AI的奖励函数去掉了身体高度和膝盖弯曲角度等参数，仅与前进速度相关。

新AI在已有数据的基础上进行几分钟的预训练，然后进行了40小时的自我训练。最终，新AI每秒的动作数在训练环境中从9提升到18，在测试环境中达到了25。

新AI对踢腿技巧的掌握非常稳定，即使受到障碍物的干扰也能迅速恢复。

快速而高效的动作使AI的成绩提高至47.34秒，比人类最高纪录快了整整1秒。

这标志着人工智能在游戏领域又新增了一项超越人类的成就。

完成100米的挑战并不算完，这款游戏还有一种世界级难度——“是男人就跑完马拉松”。

为Liao提供帮助的玩家KuRodo最近刚刚提交了马拉松的世界纪录，全球仅有两人完成此壮举。

难以想象他们在电脑前连续数小时按键的场景。

另外，QWOP的开发者Bennett Foddy一直在持续开发这类高难度的独立小游戏。

其中一款名为Getting Over It with Bennett Foddy，中文名为“掘地求升”，玩法是一个装在坛子里的人不断使用锤子来提高自己的高度。

Foddy曾在普林斯顿大学和牛津大学担任博士后研究员，如今是一名独立游戏设计师。QWOP正是他在普林斯顿大学时开发的作品。

我只能说，学霸开发的游戏，学渣真的玩不起。

ad

近期文章

互联网资讯 / 人工智能 · 2023年12月3日 0

AI攻克全球最具挑战性的沙雕游戏

You may also like...

发表评论取消回复

互联网资讯 / 人工智能 · 2023年12月3日 0

You may also like...

整车蒸发污染物排放不达标遭举报

预计本月向国内用户交付超过80000辆电动汽车

《英雄联盟》宣布达成全球智能手机合作，S9全球总决赛成首个合作赛事

发表评论 取消回复

发表评论取消回复