AlphaGo究竟如何决定落子科普中国-科学原理一点通 2017-12-18 |
围棋包含了庞大的搜索空间,对于落子位置的评估难度远超简单的启发式算法。那么,AlphaGo究竟是如何决定落子的呢?
AlphaGo采用了一种新颖的机器学习技术,结合了监督学习和强化学习的优势。通过训练形成一个策略网络(policy network),将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络(value network)对自我进行预测,以-1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。这两个网络自身都十分强大,而AlphaGo将这两种网络整合进基于概率的蒙特卡罗树(MCTS)中,实现了它的优势。
新版的AlphaGo产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。
获得棋局信息后,AlphaGo会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为AlphaGo的最终选择。在经过先期的全盘探索和过程中,以及对最佳落子的不断揣摩后,AlphaGo的搜索算法就能在其计算能力之上加入近似人类的直觉判断。
在业内人士看来,AlphaGo最强大的地方并不体现在具体某一手棋或某个局部变化中,而在于在每一局棋里的独特视角,所以,其棋风本身并不容易总结。但总体来说,它更倾向于一种自由开放的行棋风格,没有什么先入为主的概念,也没有什么必须遵守的规则。这种对局哲学常让它下出违反第一感但极具威力的一手棋。基于此,柯洁觉得人类可以向它学习:“在人类的棋局中,可以大胆创新,大胆开拓自己的思维。”
责任编辑:科普云
下一篇:水的真面目到底是什么
最新文章
-
为何太阳系所有行星都在同一平面上旋转?
新浪科技 2021-09-29
-
我国学者揭示早期宇宙星际间重元素起源之谜
中国科学报 2021-09-29
-
比“胖五”更能扛!我国新一代载人运载火箭要来了
科技日报 2021-09-29
-
5G演进已开始,6G研究正进行
光明日报 2021-09-28
-
“早期暗能量”或让宇宙年轻10亿岁
科技日报 2021-09-28
-
5G、大数据、人工智能,看看现代交通的创新元素
新华网 2021-09-28