AI正在帮助我们持续地优化游戏体验。目前,AI能够让NPC更真实的运动和打斗,赋予游戏中的半兽人以人格和逼真的外表。
现在DpMind的AI能像人类一样,通过战略、战术和团队协作玩画面定制版的雷神之锤3了。
该团队选择了夺旗模式(CapturThFlag,CTF)进行训练。在该模式下,每一场游戏地图都会变化。AI智能体需要学习通用的策略,来适应每一场比赛的新地图。这对人类来说当然很容易。这些智能体还需要团队合作并与敌队竞争,针对敌情调整游戏策略。
研究人员在博客中写道:“我们的AI智能体必须要在未知的环境下从头学习如何观察、行动、合作和竞争,这一切都是从每场比赛中的单个强化信号——队伍赢了还是输了学到的。”他们训练了许多像人类一样能在游戏中不断学习的AI智能体。每一个智能体都由一个内部奖励信号来驱动。这个信号可以驱使他们实现目标,比如获取旗子。智能体们在快节奏和慢节奏的比赛下互相比赛,并与人类玩家竞赛,来提高他们的记忆能力,让行为始终一致。研究者发现,游戏中AI智能体不但比人类更出色,而且也学会了一些人类行为,如跟随队友,或者埋伏在敌人基地等。
图
智能体自动学习的三个人类动作
本次研究的亮点在于,只以成绩奖惩信号学习,通过多智能体强化学习,训练出在复杂条件下支持人机、机器之间协作的高适应性智能体。
游戏规则
CTF夺旗赛的规则很简单,不过游戏状况却很复杂。两队玩家在一个地图里保护己方,抢夺敌方的旗子。为了获得战术优势,他们可以碰触敌人,让他们跳回出生点。在五分钟比赛后,夺旗次数最多的队伍获胜。
本次研究使用的游戏是雷神之锤III竞技场。它是许多第一人称视角多人游戏的鼻祖,由于其沉浸式游戏体验和对战略、战术、手眼协调和团队协作的挑战,目前这是最流行的一类游戏,吸引了数以百万计的玩家。
游戏中智能体需要像人类一样学习和行动,通过团队协作共同抗击敌队的智能体、其他类AI机器人或人类。
从智能体的视角,夺旗赛不但需要玩家在与队友协作的同时抗击敌人,而且还要能够适应各种不同的游戏状况。
训练方式
在训练中,每一场比赛地图都会不同。因此,智能体不得不学习一种通用的策略,而不是记住特定的地图或技巧。此外,为了模仿真实游戏情况,智能体探索地图的方式与人类类似:先观察一系列图片像素,然后通过游戏控制器实现动作。
图
CTF夺旗赛在不断新生成的环境中进行,所以智能体必须能够适应未知的地图
AI智能体必须要在未知的环境下从头学习如何观察、行动、合作和竞争,这一切都是从每场比赛中的单个强化信号——队伍赢了还是输了习得的。这是个有挑战的学习问题,最终结果基于三个强化学习的通用原则:
训练一群相互游戏的智能体,来保证队友和敌人的多样性。
每个智能体通过自己内部的奖励信号进行学习。这些信号能帮助智能体制定自己的目标,比如去夺旗。一个两级的优化过程直接优化智能体获胜的内部奖励,并使用强化学习来鼓励智能体学习策略。
智能体们在快速和慢速两个时间节奏下被训练,这样能够增强其记忆,使得其行为前后一致。
图
ForThWin智能体架构示意图。智能体结合了慢速和快速的循环神经网络,包括共享记忆,转换分数为内部奖励。
最终形成智能体被叫做"ForThWin"(FTW),在夺旗赛中有高水平表现。重要的是,习得的智能体策略能够适应不同地图尺寸、队友种类和队友数量。
团队选定四十个人类玩家进行了一场人机锦标赛。比赛中人类和智能体会被随机混合组队,作为队友和敌人。
训练结果
论文结果表明,FTW智能体的表现比基线方法(Slf-play+RS)更好,并且超过了人类玩家的胜率。事实上,对参与者的调查显示,智能体的协作能力比人类玩家更好。
图
智能体在训练中的表现。FTW智能体的埃洛等级分(与胜率正相关)比人类玩家和基线方法都高。
理解智能体
除了结果评估,理解这些智能体的行为和内部游戏表示复杂度也同样重要。
图
智能体对游戏世界的表示。相似游戏情形被智能体用相似的方式表示。训练的智能体甚至可以直接使用一些人工神经元编码特定情形。
为了理解智能体,DpMind将智能体的神经网络画在平面上,观察其激活模式。上图中的点表示一种游戏情形,周围邻近的点表示它们具有类似的激活模式。这些点的颜色是根据高级别夺旗赛的比赛状态标注的,状态包括:智能体所在房间、双方旗子的状态、队友和敌人的情况。相同颜色的一簇点表示智能体处在相似的高级游戏状态中。
从来没有人告诉这些智能体游戏规则,但智能体却能学习出游戏的基本概念,并发展出对夺旗赛的直观解释。观察发现,特定的神经元将比赛中的重要状态直接编码,比如当旗子被夺走,或者当队友拿到旗子时。论文中还对智能体的记忆使用和视觉注意力进行了进一步分析。
除了那些丰富的表征,那么智能体的实际表现如何呢?首先,智能体的反应速度非常快,且有精确的命中,这可以解释他们出色发挥的原因。然而,人工降低这个准确率和反应时间,他们的表现依旧不俗。所以这些都只是它们成功的因素之一而已。
图
在人工降低了智能体的命中率和反应时间之后的影响。即使调整为与人类相近的命中率和反应时间,智能体的表现依旧优于人类玩家。
通过无监督学习,DpMind建立了一个智能体和人类的原型行为,发现智能体能够学习出人类行为,比如跟随队友和在敌营埋伏。
跟随队友等行为起初在通过强化学习和群体演化的训练中出现。但当智能体学习以更互补的方式“创新”合作时,这些行为就变少了。
总结
近期科学家们在复杂游戏如星际争霸II和Dota2上做了非常棒的工作,而这篇论文则聚焦于夺旗游戏,但其研究贡献是通用的,DpMind也期待该方法用在不同的复杂环境中。未来,DpMind还希望进一步提升当前的强化学习和基于群体的训练方法。该研究强调了多智能体训练促进人工智能发展的潜力:利用多智能体训练提供的力量,并推动更高适应性的鲁棒智能体和人类团队合作。
-End-
校审:戴青
参考: