- A+
不过为了比赛的保密性■■■DeepMind掩盖了AlphaStar的身份■■■这样有利于玩家把AI当作正常对手■■■更加真实。
▲AlphaStar与人类玩家对战“我们希望像盲实验(blind experiment)一样■■■我们真的非常想在这样的条件下比赛■■■去真切的体会到■■■玩家和AI对战最真实的表现。
” AlphaStar项目的共同负责人戴维·西尔弗(David Silver)说到。
AlphaStar的训练初见成效:在低分段中它已经可以碾压对手■■■并且在面对高分段选手的90场比赛中■■■它赢得了61场。
二❤超乎想象的复杂程度《星际争霸2》的复杂性是AI面对的最大挑战。
与国际象棋不同■■■《星际争霸2》有数百个“单位”(玩家在游戏中可以控制的单位)■■■它们可以实时的同步移动■■■而不是以有序的回合制方式移动。
棋子每次可以移动的数量和方向是有限的■■■而AlphaStar随时面对10的26次方种动作可供选择。
另外最大的不同就是《星际争霸2》是一种信息不完善的游戏■■■你大部分时候都看不到对手在做什么■■■导致你无法预测。
近十年来■■■很多研究人员都在进行《星际争霸1》和《星际争霸2》两款游戏的AI对抗赛■■■但是■■■与AlphaStar不同■■■这里面大多数的“机器人”都依赖于硬编码规则(hard-coded rules)■■■而不是可以自我训练的神经网络。
▲该图描述了AlphaStar自我训练演变。
AlphaStar项目的共同负责人Oriol Vinyals是来自加州大学伯克利分校AI团队的一员■■■他们曾在2010年赢得了第一场比赛。
Vinyals说:“那时候■■■我已经开始觉得我们应该进行机器学习■■■不过为时尚早。
”Vinyals在2016年加入DeepMind■■■在那里他开始从事AI的研究■■■这些AI可以教自己如何玩《星际争霸2》。
AlphaStar通过学习模仿近一百万种人类游戏来进行培训。
▲DeepMind的AlphaStar自我训练截图为了进一步改善AlphaStar的表现■■■DeepMind建立了一个联盟■■■在这个联盟中■■■不同的AI版本相互竞争。
伦敦帝国学院的AI研究员Kai Arulkumaran说■■■这种方法对于没有最佳策略的《星际争霸2》这样的游戏以及许多其他现实生活中的AI应用都是非常有意义的。
三❤敏锐的玩家DeepMind对AlphaStar施加了约束■■■以确保AI是从思维层面超越了人类■■■而不是只是有更快的反应速度■■■点击更快。
为此■■■DeepMind将AlphaStar的反应速度限制为“有经验的人类玩家(experienced human players)”。
在这种情况下■■■经过27天的培训■■■AlphaStar在欧洲服务器上排名已经跻身前0.5%。
然而■■■经过50场比赛■■■DeepMind遇到了障碍。
一些玩家已经注意到■■■《星际争霸2》的游戏对战平台上的三个帐户在相似的时间段内玩了完全相同数量的《星际争霸2》游戏——AlphaStar秘密使用的三个帐户。
在观看这些比赛的重播时■■■玩家注意到帐户所有者所执行的动作对于人类来说几乎是不可能的。
为了应对这样的状况■■■DeepMind开始使用多种技巧来保持比赛的盲目性■■■并阻止玩家发现AlphaStar■■■例如定期更换帐户。
最终版本的AlphaStar依靠总共44天的培训■■■已经跻身职业玩家之列。
虽然无法像国际象棋和围棋那样击败世界上最好的玩家■■■但DeepMind认为其基准已经达到■■■并表示已经完成了《星际争霸2》的挑战。
其他AI科学家并不确定AlphaStar可以取得完全胜利。