上周,青亭网曾经报道过,OpenAI的智能机器人玩Dota2打败了人类玩家。而本周AI队又加一分,谷歌子公司DeepMind的科研团队训练出了能在《雷神之锤3:战场》中的“夺旗”游戏中打败人类玩家的AI机器人。
与AI玩游戏的先例相同,DeepMind科研团队面临的挑战是利用不完整信息训练AI机器人玩复杂的3D游戏,为此,他们使用了一种逐渐成为主流的AI强化训练法,也就是进行大量的反复训练。而科研人员也没有指导AI机器人如何玩游戏,只是放任机器人对打,直到机器人算出获胜的策略,也就是说,水平相当的AI机器人会相互PK。
DeepMind在此基础上又增加了难度,训练了30种不同的AI机器人,来提供多样的玩法。而训练出这种AI,需要玩将近50万场游戏,每场游戏五分钟。
这样听起来简单的训练方法,居然能让机器人自发学会复杂的玩法,真的不可思议。DeepMind的AI机器人不仅学习了“夺旗”的基本规则(从敌方基地夺旗,然后赶在对方夺你旗之前回到大本营),还学会了守旗,在敌方阵营扎营,跟随队友gank。
DeepMind为了继续给AI机器人的增加挑战,将每场游戏都建立在全新、且需要探索的非全开地图。
与OpenAI的Dota2机器人不同,DeepMind公司的机器人并未接触到《雷神之锤3》的原始数据资料(显示与敌人距离和血量等的数字信息),而是模仿人类,通过直接观察屏幕上的信息来学习。当然,这并不能说明DeepMind的机器人面临的挑战要大于玩Dota2的AI,毕竟Dota2整体还是比《雷神之锤3》要复杂得多。
最后,DeepMind举办了一场比赛,来测试AI机器人的能力。比赛中,有二人对抗二AI,也有AI与人类混搭的二人组PK。两个AI组成的队伍最成功,有着74%的获胜几率。而普通人类玩家的获胜几率只有43%,玩的好的人获胜几率有52%,这也就证明了AI机器人比人类更会玩。
值得注意的是,一组玩家中机器人越多,结果反而越不好。四个DeepMind机器人队伍的或胜率是65%,也就是说AI机器人的团队合作还有待提高。
这样的研究,其实一直都不是为了训练AI机器人在游戏中打败人类玩家,而是寻求新办法教育机器人合作在环境中生存,也就是训练集体智能(总的来说,这也是人类成功的诀窍)。
笔者认为,AI在“夺旗”中的表现,预示了将来还会有更大的成功。
参考:TheVerge