美国时间10月18日,《自然》杂志在官网刊登了一篇名为《Mastering the game of Go without human knowledge》的论文。该文章(点我查看PDF)详细介绍了DeepMind公司旗下人工智能算法AlphaGo Zero的特点。
AlphaGo Zero最厉害的地方在于,它不需要人类专家的指导,就能通过自我强化学习来进行训练。直白一点地说,之前打败围棋大师李世石的AlphaGo可能需要人类给它提供各种高手棋谱来进行训练,而Zero就是一个完全的小白,人类也不用教它什么,只需要告诉它规则,它就能完全通过自学的方法来掌握围棋。
和前代版本相比,Zero在效率上有着明显的提升,现在仅需要4块TPU(由谷歌构建的专门的AI处理器)和72个小时的训练,就能胜过之前几个月训练时间的AlphaGo。
根据DeepMind联合创始人Demis Hassabis介绍,AlphaGo Zero的出现意味着,现在他们可以向社会提供类似于科学研究的人工智能引擎。通过摆脱对人类的依赖,这样的算法使得人工智能在其他科学领域上的应用成为可能。