据外媒报道,在其人工智能击败众多人类顶尖高手后,DeepMind已经转向更雄心勃勃的东西。DeepMind已开始使用了强化学习来促进AI学习玩《雷神之锤3》(QuakeIII)的多人夺旗模式。
在经典射击游戏《雷神之锤3》的夺旗模式中,AI需要分析通过显示器电缆发送的原始图像,以确定规则是什么以及如何获胜。为了与“普通玩家”进行竞赛,它需要进行14万场游戏;而为了与“老手”进行竞赛,AI需要进行17.5万场游戏,当研究人员让AI游玩了45万场多人模式后,AI明显优于所有人类玩家。
AI针对随机生成的地图进行了培训,以防止其采用特定地图独有的策略。在整个过程中,人类队伍比AI对平均少了16面旗帜,一对专业游戏玩家在练习12小时后与AI进行竞赛时,胜率只有25%的时间内击败AI。比赛中的四十个人类玩家认为AI比其他人类玩家更合作。
研究人员在AI中构建了两个层,即负责元策略的“思考”层以及将这些策略解释为特定操作的“执行”层。它开发了专门的神经元,用于检查它是否有旗帜,队友是否有旗帜,是否有敌人在哪里,以及敌人的基地在哪里。
对于比赛,研究人员将AI的反应时间增加了毫秒,这是他们计算的平均玩家的反应时间,并且它对AI的表现几乎没有影响。与人类50%的准确率相比,人工智能最初的准确率为80%。
研究中最有趣的发现之一是最好的队友组合是一个人类和一个人工智能。尽管不能像一对人类那样进行交流,也没有像人工智能预期的那样预测对方的动作,但不太可能的二人组的获胜概率比纯AI队友组合的胜率高出5%。