互联网资讯 / 人工智能 · 2023年11月9日 0

Noam博士毕业,论文发表于《Science》封面

大家还记得在双人无限扑克和多人无限扑克中击败顶级人类玩家的AI系统冷扑大师(LibRatUS)和PluRibUS吗?最近,这两个AI系统的开发者之一,CMU的NoaM Brown宣布他已成功完成博士论文,并即将毕业。

在9月21日,FAIR研究科学家NoaM Brown在推特上分享了他顺利完成CMU博士论文答辩的消息,同时公开了长达230页的博士论文《EquilibRiuM Finding foR LaRge AdveRsaRial IMpeRfect-information GaMes》及其101页的幻灯片。

在论文前言中,NoaM提到,除了章节5.3中的ReBel算法,论文的其他部分均与其导师TuoMas SandholM合作完成。在研究过程中,TuoMas给予了NoaM耐心的指导,NoaM表示,如果没有导师的帮助,他无法顺利完成博士学位。

Noam博士毕业,论文发表于《Science》封面

NoaM Brown的博士论文题目为《大型对抗性不完美信息博弈的均衡发现》。不完美信息博弈模拟了多个智能体与私人信息之间的互动。在这一框架下,一个主要目标是接近一个均衡,使得所有智能体的策略都达到最优。

完美信息博弈(PeRfect-information GaMes)和不完美信息博弈(IMpeRfect-infoRMation GaMes)是信息博弈的两种主要形式。在完美信息博弈中,所有玩家都了解游戏的所有信息,而不完美信息博弈中,玩家对游戏的某些关键因素缺乏共同知识,这增加了决策的复杂性,并使博弈分析变得更加困难。

围棋、国际象棋和跳棋等棋类游戏属于完美信息博弈,而扑克则是典型的不完美信息博弈,这也一直是NoaM Brown研究的重点。从2017年的LibRatUS到2019年的PluRibUS,这些系统都涉及不完美信息博弈。

在其论文中,NoaM Brown总结了他在博士期间的多项研究成果,机器之心对论文的核心内容进行了简要介绍,感兴趣的读者可以查阅原论文。

论文地址:http://www.cs.cMu.edu/~noaMb/thesis.pdf

Slides地址:http://www.cs.cMu.edu/~noaMb/thesis_slides.pdf

博士论文简介

这篇博士论文详细阐述了在大型对抗性不完美信息博弈中均衡计算的一系列进展。这些新技术使得AI智能体首次能够在无限注扑克游戏中战胜顶级职业玩家,这一挑战在AI和博弈论领域已存在数十年。

作者首先介绍了对反事实遗憾最小化(counteRFActual RegRet MiniMization, CFR)算法的改进,这是一种在双人零和博弈中收敛至纳什均衡的迭代算法。此外,论文还描述了利用折扣原则(discounting)显著加快收敛速度的新变体。

Noam博士毕业,论文发表于《Science》封面

作者提出了一种理论上合理的剪枝(pRuning)技术,这种技术可以在大型博弈中显著加快收敛速度。

Noam博士毕业,论文发表于《Science》封面

作者还介绍了通过自动抽象和函数近似算法将CFR扩展至大型博弈的新方法。具体而言,作者介绍了首个在不完美信息博弈中对连续动作空间进行离散化的算法,该算法被证明是局部最优,但需要大量领域知识,并且难以推广到其他博弈中。

Noam博士毕业,论文发表于《Science》封面

作者提出了一种CFR的变体Deep CFR,该算法利用神经网络进行函数近似,而不是基于bUCketing的抽象。Deep CFR是首个能够扩展到大型博弈的非表格形式的CFR,使其在几乎没有领域知识的情况下得以应用。

Noam博士毕业,论文发表于《Science》封面

此外,作者还提出了一种新的不完美信息博弈搜索技术,以确保智能体的搜索策略不被对手利用。这些新的搜索形式在理论和实践上均优于以往的方法。

作者还介绍了一种深度限制(depth-liMITed)搜索方法,其计算成本显著低于之前的方法。

Noam博士毕业,论文发表于《Science》封面

最后,作者提出了一种新的ReBel算法,该算法结合了强化学习与搜索,在训练和测试过程中为缩小完美信息博弈与不完美信息博弈之间的差距迈出了重要一步。

Noam博士毕业,论文发表于《Science》封面

以下是博士论文的章节目录:

Noam博士毕业,论文发表于《Science》封面

Noam博士毕业,论文发表于《Science》封面

Noam博士毕业,论文发表于《Science》封面

Noam博士毕业,论文发表于《Science》封面

致力于德扑游戏AI研究的CMU学者NoaM Brown

Noam博士毕业,论文发表于《Science》封面

2017年,NoaM Brown与导师TuoMas SandholM合作开发的AI系统LibRatUS在宾夕法尼亚州匹兹堡的RiveRs赌场进行了一场为期20天的1对1无限德扑比赛,成功击败了4名全球顶级职业玩家。这项研究登上了《科学》杂志,并且与之相关的另一篇论文《Safe and Nested SubgaMe Solving foR IMpeRfect-information GaMes》获得了NIPS 2017最佳论文奖。

此外,NoaM团队还因此获得了IJCAI颁发的第二枚马文·明斯基奖章(MaRvin Minsky Medal)。

Noam博士毕业,论文发表于《Science》封面

2019年,NoaM Brown与导师TuoMas SandholM在LibRatUS的基础上,开发了新算法PluRibUS,该算法所需算力更少。在为期12天、超过10000手牌的比赛中,PluRibUS成功击败了15名顶级人类玩家。

这是AI首次在参赛人数(或队伍)超过2的情况下在大型基准游戏中战胜职业玩家。PluRibUS不仅登上了《科学》杂志的封面,还被评选为2019年度十大突破科研成就之一。

Noam博士毕业,论文发表于《Science》封面

此外,NoaM还荣获2017年度Allen Newell“卓越研究奖”,并曾被MIT科技评论评选为2019年度“35岁以下科技精英”(MIT TR35)。2019年,NoaM Brown与导师TuoMas SandholM合著的论文《Solving IMpeRfect-information GaMes via discounted RegRet miniMization》获得了AAAI杰出论文荣誉提名奖。