阅读:0
听报道
撰文 | 李家劲(加州大学洛杉矶分校)
责编 | 叶水送
● ● ●
AlphaGo又“进化”了!新一代机器人AlphaGo Zero诞生,在围棋领域,它会不会感到孤独?
本周,Nature杂志报道了英国DeepMind团队的最新进展:他们开发出了新一代的围棋AI——AlphaGo Zero。AlphaGo Zero使用强化学习技术(Reinforcement Learning),大幅提升了棋力。它现在能够以更少的计算资源,轻松击败曾经战胜世界冠军李世石、柯洁的AlphaGo前代版本。
AlphaGo Zero与之前版本最大的区别在于,AlphaGo Zero从随机对局开始,通过自我对弈来提升自己的棋艺,从不依靠任何人类的监督或对局数据。而在以往版本中,AlphaGo都是使用业余和专业人类棋手的对局数据来训练自己。虽然使用人类棋手的数据可以让AI学习到人类的围棋技巧,但是人类专家的数据通常难以获得且很昂贵。此外,即使是专业棋手,也难免会有失误,而使用错误的训练数据可能会降低AlphaGo的棋力。况且,仅仅使用人类数据会让AI局限于人类的围棋知识。
更重要的是,AlphaGo在围棋界已是“独孤求败”的境界,所以,要突破自己的界限,甚至围棋知识的界限,显然只有AlphaGo自己才能做自己的老师。
从算法上来说,AlphaGo Zero更简洁、漂亮,让我想起爱因斯坦的KISS原则:simple but not simpler。这一次,AI在人类的帮助下,在一个给定的规则下,自主发现新知识,并且纠正人类的错误知识,而且以惊人的速度达到这一点。有趣的是,AlphaGo无法解释,只能demo给人类。在这个特定的小领域,人类和人工智能一起创造了新知识。
张峥(上海纽约大学终身教授、国家千人计划特聘专家)
经过几百万盘的自我博弈后,AlphaGo Zero进步明显,不仅棋力大幅增强,运算速度也提升了不少。在100盘对局中,仅使用1台机器、4个TPU的AlphaGo Zero对使用多台机器、48个TPU的AlphaGo Lee取得全胜,后者曾经击败韩国名将李世石。在同样配置下,AlphaGo Zero对AlphaGo Master取得89胜11负的压倒性优势,后者就是2017年1月在顶级围棋在线对战平台上取得60战60胜的神秘选手Master。而且,AlphaGo Zero训练了72小时就完胜AlphaGo Lee,仅用40天就超越了AlphaGo Master。这主要得益于DeepMind团队开发的新型强化学习技术。
何为强化学习技术?简单来讲,强化学习使用一套奖励机制,让AI从中学习到能够获得最大回报的策略。AlphaGo Zero的强化学习主要包含两个部分,蒙特卡洛树搜索算法(Monte Carlo Tree Search,MCTS)与神经网络算法。其中,神经网络算法给出落子方案,以及预测当前形势下的胜方;MCTS算法可以看成是一个弈棋策略的评价和改进工具,它能够模拟出AlphaGo Zero落子在哪些地方可以获得更高的胜率。如果AlphaGo Zero从神经网络得出的下一手棋的走法越相似于MCTS算法输出的结果,则胜率越大,即所谓回报越高。如此,在每一着棋中,AlphaGo Zero都要优化神经网络中的参数,使其计算出的落子方案更接近MCTS算法的结果,同时尽量减少胜者预测的偏差。开始的时候,AlphaGo Zero的神经网络完全不了解围棋,只好盲目下棋。但经过日以继夜的“左右互搏”般的训练,无数盘对局后,AlphaGo Zero迅速从围棋小白成长为传奇棋神。
除了改进人工智能技术外,DeepMind团队也希望能够通过AlphaGo项目获得对围棋更深的认识。他们发现,AlphaGo Zero仅仅自我对弈几十天就掌握了人类几百年来研究出来的围棋技术,而且棋路独特。例如,AlphaGo Zero很喜欢下出定石(围棋术语)的新型变种。这是因为它没有使用人类数据,不再囿于人类现有的围棋理论。
“当前的最强版本,AlphaGo Zero向我们展示了即使不用人类的数据,即使使用更少的计算资源,也能够取得长足进步。最终我们想用这些技术进展去解决现实问题,如蛋白质折叠或者新材料设计。如果我们能够在这些问题上取得同样进展,这将会增进人类的认知,从而改善每个人的生活。”
DeepMind的共同创办者兼CEO Demis Hassabis如是说。
参考资料
Silver D. Mastering the game of Go without human knowledge. Nature. doi:10.1038/nature24270.
话题:
0
推荐
财新博客版权声明:财新博客所发布文章及图片之版权属博主本人及/或相关权利人所有,未经博主及/或相关权利人单独授权,任何网站、平面媒体不得予以转载。财新网对相关媒体的网站信息内容转载授权并不包括财新博客的文章及图片。博客文章均为作者个人观点,不代表财新网的立场和观点。