财新传媒 财新传媒

阅读:0
听报道
 
撰文 | 李家劲(加州大学洛杉矶分校)
责编 | 叶水送
 
● ● ●
 
AlphaGo又“进化”了!新一代机器人AlphaGo Zero诞生,在围棋领域,它会不会感到孤独?
 
本周,Nature杂志报道了英国DeepMind团队的最新进展:他们开发出了新一代的围棋AI——AlphaGo Zero。AlphaGo Zero使用强化学习技术(Reinforcement Learning),大幅提升了棋力。它现在能够以更少的计算资源,轻松击败曾经战胜世界冠军李世石、柯洁的AlphaGo前代版本。
 
AlphaGo Zero与之前版本最大的区别在于,AlphaGo Zero从随机对局开始,通过自我对弈来提升自己的棋艺,从不依靠任何人类的监督或对局数据。而在以往版本中,AlphaGo都是使用业余和专业人类棋手的对局数据来训练自己。虽然使用人类棋手的数据可以让AI学习到人类的围棋技巧,但是人类专家的数据通常难以获得且很昂贵。此外,即使是专业棋手,也难免会有失误,而使用错误的训练数据可能会降低AlphaGo的棋力。况且,仅仅使用人类数据会让AI局限于人类的围棋知识。
 
更重要的是,AlphaGo在围棋界已是“独孤求败”的境界,所以,要突破自己的界限,甚至围棋知识的界限,显然只有AlphaGo自己才能做自己的老师。
 
从算法上来说,AlphaGo Zero更简洁、漂亮,让我想起爱因斯坦的KISS原则:simple but not simpler。这一次,AI在人类的帮助下,在一个给定的规则下,自主发现新知识,并且纠正人类的错误知识,而且以惊人的速度达到这一点。有趣的是,AlphaGo无法解释,只能demo给人类。在这个特定的小领域,人类和人工智能一起创造了新知识。
 
张峥(上海纽约大学终身教授、国家千人计划特聘专家)
 
经过几百万盘的自我博弈后,AlphaGo Zero进步明显,不仅棋力大幅增强,运算速度也提升了不少。在100盘对局中,仅使用1台机器、4个TPU的AlphaGo Zero对使用多台机器、48个TPU的AlphaGo Lee取得全胜,后者曾经击败韩国名将李世石。在同样配置下,AlphaGo Zero对AlphaGo Master取得89胜11负的压倒性优势,后者就是2017年1月在顶级围棋在线对战平台上取得60战60胜的神秘选手Master。而且,AlphaGo Zero训练了72小时就完胜AlphaGo Lee,仅用40天就超越了AlphaGo Master。这主要得益于DeepMind团队开发的新型强化学习技术。
 
何为强化学习技术?简单来讲,强化学习使用一套奖励机制,让AI从中学习到能够获得最大回报的策略。AlphaGo Zero的强化学习主要包含两个部分,蒙特卡洛树搜索算法(Monte Carlo Tree Search,MCTS)与神经网络算法。其中,神经网络算法给出落子方案,以及预测当前形势下的胜方;MCTS算法可以看成是一个弈棋策略的评价和改进工具,它能够模拟出AlphaGo Zero落子在哪些地方可以获得更高的胜率。如果AlphaGo Zero从神经网络得出的下一手棋的走法越相似于MCTS算法输出的结果,则胜率越大,即所谓回报越高。如此,在每一着棋中,AlphaGo Zero都要优化神经网络中的参数,使其计算出的落子方案更接近MCTS算法的结果,同时尽量减少胜者预测的偏差。开始的时候,AlphaGo Zero的神经网络完全不了解围棋,只好盲目下棋。但经过日以继夜的“左右互搏”般的训练,无数盘对局后,AlphaGo Zero迅速从围棋小白成长为传奇棋神。
 
除了改进人工智能技术外,DeepMind团队也希望能够通过AlphaGo项目获得对围棋更深的认识。他们发现,AlphaGo Zero仅仅自我对弈几十天就掌握了人类几百年来研究出来的围棋技术,而且棋路独特。例如,AlphaGo Zero很喜欢下出定石(围棋术语)的新型变种。这是因为它没有使用人类数据,不再囿于人类现有的围棋理论。
 
“当前的最强版本,AlphaGo Zero向我们展示了即使不用人类的数据,即使使用更少的计算资源,也能够取得长足进步。最终我们想用这些技术进展去解决现实问题,如蛋白质折叠或者新材料设计。如果我们能够在这些问题上取得同样进展,这将会增进人类的认知,从而改善每个人的生活。”
 
DeepMind的共同创办者兼CEO Demis Hassabis如是说。
 
参考资料
Silver D. Mastering the game of Go without human knowledge. Nature. doi:10.1038/nature24270.
话题:



0

推荐

知识分子

知识分子

3623篇文章 1小时前更新

由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,现任主编为周忠和、毛淑德、夏志宏。知识分子致力于关注科学、人文、思想。我们将兼容并包,时刻为渴望知识、独立思考的人努力,共享人类知识、共析现代思想、共建智趣中国。

文章