3天击败旧版 "阿尔法狗"再进化的哲学启示

环球时报 2017-10-24 作者:陈经

  前不久,Deepmind在《自然》上发表论文,介绍了“阿尔法狗”(AlphaGo)取得的重大进展。与之前的版本不同,AlphaGo Zero完全不需要人类棋谱,从零开始自学习,只用3天就以100∶0的压倒性成绩,击败曾赢下韩国棋手李世石的那版AlphaGo。

  人工智能(AI)与人类的关系,在2016年的AI爆发后备受关注。对于给定规则的博弈问题,AI是需要人类的知识提供“第一推动”,还是可以自己从“元规则”开始反复实践总结,发展出知识体系,是个有趣的问题。对于像“打砖块”这样的简单游戏,AI从零知识开始反复试玩,达到超过人类玩家的分数,2015年就实现了。但是围棋这样复杂的游戏,人们还有疑问,也许人类提供一些知识对高水平AI是必需的,从零知识开始也许AI会陷入局部陷阱中出不来。

  现在AlphaGo Zero给出了答案:对于AI来说,人类对围棋的知识积累不是必须的!而且从零知识开始训练,可以达到更高水平。人类棋谱中有一些“成见”,如一些自以为正确的本能定式下法,其实反而阻止了学习者达到更高水平。AlphaGo Zero从零开始自学习,完全不受人类棋谱的“污染”,就可以突破“成见”,真正进入自由的天地,达到更高的水平。

  AlphaGo能不依赖人类的知识就学习成功,其关键之处在于:围棋是有确定规则的,是一个“客观”的游戏。不需要人主观评判,机器按行棋规则下,终局就有确定的胜负结果出来。这样,AlphaGo的学习就不需要人类的干预,完全可以自动进行海量的实践。AlphaGo Zero的成功,是自学习方法的突破,也是“实践检验”哲学原理的成功。

  人类的社会活动或者AI的博弈,需要通过实践不断提升效率与表现。实践总是需要在一定的规则之内进行,这是基础,就如稳定的社会、现代银行体系、围棋的行棋与终局规则。实践时,人类本能地会借鉴前辈的一些“经验”作为思考的出发点。学校、政府、公司都有教育体系,正如围棋AI会学习人类高手的棋谱生成“策略网络”作为优先选择。然而这些“经验”,到底能起什么样的作用,值得仔细观察。

  在实践不足的情况下,参考前人经验与人类棋谱,显然是有益的,能够快速“上手”。但是,在发展遇到瓶颈的时候,可能就会显出前人经验的不足,照本宣科会限制思维,无法突破。想取得突破,就需要从本原出发,敢于怀疑,抛弃成见大胆实践学习,下出“新手”,作出改革。这说明,人类的实践活动可以借鉴前人的经验,但是如果有了好的实践反馈学习框架,完全可以进行扬弃,取得理论突破。中国改革开放的历程也说明,全社会持续不断地学习与主动变革实践,正是社会奋发向上不断取得突破的哲学基础。

  AlphaGo虽然再次震惊世人,但无须对AI的快速发展和惊人实力感到神伤。目前,AI仍只是人类的工具,还没有自己的思维。▲(作者是科技与战略风云学会研究员)

责任编辑:王超

科普中国APP 科普中国微信 科普中国微博
环球时报
是中国科协为深入推进科普信息化建设而塑造的全新品牌,旨在以科普内容建设为重点,充分依托现有的传播渠道和平台,使科普信息化建设与传统科普深度融合,以公众关注度作为项目精准评估的标准,提升国家科普公共服务水平。

猜你喜欢