一年前,一只阿尔法狗横空出世,它在学习了几百万册人类棋谱后,参透了围棋奥义,以4-1打败了人类世界的围棋冠军李世石,改变围棋领域的格局。
最近,它的弟弟阿尔法元没看过一本棋谱,也没得到过任何人的指点,仅凭自己摸爬滚打,自娱自乐,下了几千万盘棋后,变成了顶尖高手。3天后,它以100:0的成绩战胜了哥哥,再次刷新围棋领域的排名。
伦敦当地时间10月18日18:00,研究团队DeepMind再次在《自然》(Nature)杂志上发表了一篇关于AlphaGo的文章,称新一代AI程序AlphaGo Zero(阿尔法元)在没有任何人类输入的情况下,可以自学成才。
此前,2016年1月28日,《自然》杂志就发表了封面文章,推出DeepMind公司的研究成果,即曾击败欧洲围棋冠军樊麾的人工智能程序AlphaGo。
旧版AlphaGo在今年5月战胜柯洁后宣布退役,但DeepMind公司仍在继续研究AlphaGo系列产品,此次发表的重磅论文就是为了推出迄今为止的最强版AlphaGo,代号AlphaGo Zero。
这只新的阿尔法狗不简单,它可以在完全没有人类帮助的情况下,自学成才。而且,从“一张白纸”到“顶级高手”,它只需要短短3天时间!
Zero的无敌和强大令人震惊,但在某种意义上或许可以说,人类把阿尔法狗教坏了!它不需要人类的“教育和帮助”了。
戳视频,看看Zero到底厉害在哪里。
AlphaGo项目首席研究员大卫·席尔瓦(David Silver)说,AlphaGo Zero的水平超过以前所有的AlphaGo版本,尤其值得一提的是,它击败了曾战胜世界围棋冠军李世石的旧版。
DeepMind联合创始人兼CEO 戴密斯·哈萨比斯(Demis Hassabis)说,“Zero提高了计算效率,并且没有使用到任何人类围棋数据。”
不使用人类的围棋数据,AlphaGo Zero是如何实现自学的呢?那就要先说说Zero与“旧狗”有哪些不同。
旧版Alpha Go需要先学习数百万份人类棋谱,还要经过几个月的密集训练,从而进行自我训练,实现超越。
与“旧狗”不同的是,新版Zero却能够“无师自通”,完全不需要任何历史棋谱的指引,也不需要人类的任何先验知识,完全靠自己的强化学习(reinforcement learning)。
Zero的学习原理是这样的:研究团队事先没有给Zero学习任何人类棋谱,只告诉它围棋的规则,就让它自己在棋盘上下棋,与自己进行对弈,从一次次试验和失败中吸取经验教训,摸索规律,在实战中提高棋艺。
除了学习原理外,另一点与“旧狗”不同的是,Zero使用了单一的神经网络。
此前版本的AlphaGo都是用了两种神经网络,一种用来预测下一步棋最好的走法,另一种用来计算,根据这些走法,谁更有可能获胜。
而Zero把这两种网络合二为一,只让神经网络预测获胜者,从而能够得到更高效的训练和评估,就好像让一个围棋高手来预测比赛结果一样。
此外,Zero也不再使用快速而随机的走子方法。“旧狗”会通过快速走子来预测哪个棋手会从当前局面中获胜,而Zero则通过高质量的神经网络来评估棋局。
如此看来,“旧狗”像是走一步看三步、步步为营的棋手,而Zero更像是纵观全局、成竹在胸的围棋大师。
DeepMind团队称,Zero用更新后的神经网络和搜索算法重组,随着训练加深,系统的表现不断进步。自我博弈的成绩也越来越好。同时,神经网络也变得更准确。
(Zero强化学习下的自我对弈)
经过40天的训练和3000万次对弈,Zero就能战胜此前世界上最牛的围棋手Alpha Master。
戳图,看看Zero在反复的自我对弈和学习中棋艺进步的过程。
Zero的学习很好地反映了人类棋手学习的过程。像初学者一样,开始只是贪婪地想要吃掉对方的棋子。但是经过3天训练,它就能掌握人类围棋高手所使用的复杂的技巧,“它重新发现了人类几千年的知识”,哈萨比斯说。