从封闭性到非封闭性：2020到2035年智能机器的机遇和挑战-

2020年11月20日，由中国科学技术协会主办，中国国际科技交流中心、中国人工智能学会、新加坡通商中国承办的“中新数字经济与人工智能高峰论坛”云端召开。主题报告环节，中国科学技术大学机器人实验室主任陈小平教授为我们带来了《从封闭性到非封闭性：2020到2035年智能机器的机遇和挑战》的精彩演讲。

陈小平

中国科学技术大学机器人实验室主任、教授

以下是陈小平教授的演讲实录：非常高兴有这个机会进行中、新学术交流。本报告包括四方面内容。第一，关于人工智能（简称AI）的两种类型，一种是Thinking machines；另一种是Intelligent machinery。它们之间有比较大的区别，智能机器人属于后者。第二，用人工智能的观点来看机器人领域，我们认为核心挑战是降射，英文是grounding，但是我对“降射”给出了不同于文献中的其他定义。第三，在这样一种挑战下，现有人工智能技术有没有可能大规模产业应用？这是有争论的。有人认为是不能应用的；我们的观察是：在满足封闭性条件的场景中，现有人工智能技术已经可以大规模应用了。第四，封闭性要求是比较强的，有些应用很难满足封闭性要求，所以存在另一个挑战：如何超越封闭性？我会和大家分享中科大机器人团队在过去10 年中为超越封闭性所做过的一些尝试，主要有开放知识和融差性原理这两方面的研究。

关于两类人工智能，这个观点是图灵提出来的。图灵在1950年的文章中提出图灵测试，这是非常重要的。可是在1948年图灵还有一篇文章，我觉得更加重要，这篇论文始终没有正式发表。这篇手稿的标题就叫做Intelligent machinery（智能机器）。图灵提出，智能机器就是“用机器替代人的每一个部分”，而且举了具体的例子——无人驾驶汽车。所以无人驾驶汽车是图灵设想过的。但是他分析后认为，在当时的技术条件下，是没办法研究Intelligent machinery 的，所以提议先研究没有感知和行动能力的thinking machines（思维机器）。图灵测试就是针对Thinking machines 的，他还建议了一些具体的研究课题，包括围棋、语言学习、机器翻译等。所以，实际上图灵考虑了两类人工智能——思维机器和智能机器。

我把两类AI 的根本区别总结在图1里。事实上，人工智能涉及三层空间——现实层、数据层和知识层。如果只考虑上面两层，即数据层和知识层，这就是思维机器；如果同时考虑全部三层，就是智能机器。它们之间最重要的差别是：智能机器要涉及感知和行动，而思维机器则不涉及感知和行动，至少不涉及行动。机器人自然属于智能机器，要同时涉及三层空间。

图1 人工智能的三层空间

在过去的六七十年时间里，人工智能有三次浪潮。我们回顾一下，主流的研究有两大类，一类是训练法，包括深度学习；还有一类是强力法，包括推理和知识系统。强力法是第一、二次浪潮的主力，现在关注的人较少，但强力法并没有消失，只不过换了一个赛道，我称之为“大知识”，国际上流行的术语是Knowledge technologies。

2017年AlphaGo Zero 获胜，我认为这标志着第三次浪潮的结束和第四次浪潮的开始。我们是这样看待当前和未来人工智能发展态势的。

关于第四次浪潮，其他的学者也有类似的看法，比如深度学习团队，从2017年开始就在多次演讲中提到他们的深度学习2.0计划。在2020年8月29日中国人工智能大会的特邀报告中，Y.Bengio 教授给出了一个更加完整的DL2.0方案。值得注意的是，该方案中他们计划研究的目标功能，居然都属于强力法！与强力法途径不同的是，他们想用深度学习来实现这些功能。

强力法有模型、推理机/ 搜索算法和优化三个主要成分，其中模型是关键。对于思维机器来说，模型就是知识库，存储的是抽象知识；对于智能机器来说，模型包含知识库和模型降射两部分，其中模型降射是知识库到现实世界的对应。

图2中有一个推理机（推理程序），还有知识库+ 降射。假设想让机器人在就餐过程中帮助我们，就需要编写一个知识库，描述就餐的相关知识，比如“餐具可以盛食物”“米饭是食物”等。写了这些知识之后，就可以向推理机提问，比如：“碗能不能盛米饭”？这个问题在知识库里是没有描述的，但经过推理, 强力法AI 会回答yes。再问“碗能不能盛汤？”推理机回答yes，问“碗能盛什么？”回答“能盛米饭、汤……”。一般而言，凡是知识库在逻辑上隐含的所有碗能盛的东西，推理机都能找出来，所以编写知识库不需要写出全部知识；还可以向推理机提问更复杂的问题。上述这些都是思维机器研究的内容，可以不涉及降射。

图2 强力法的降射挑战

对于智能机器人来说，只有知识库不够，还必须考虑降射。知识库里的每一个符号所代表的现实世界中的对象，都要通过降射对应起来。比如，知识库中的符号bowl 代表现实世界中的碗，这个对应就要通过降射来实现，否则机器人只知道一个空洞的符号bowl，却在现实世界中找不到碗，于是也就无法完成用户交给它的相关任务（比如“盛饭”“盛汤”等）。表面上看，这件事情很简单，其实包含着很大的难题。比如有一个碗，看起来像盘子，但其实是宋代的汝窑碗，所以也是碗，也要在降射里把它和bowl 对应起来，这样机器人才能够找到这只碗。

更有挑战性的是下面这个例子：破碗是不是碗？通常认为，破碗也是碗，于是我们在降射中把破碗也和bowl 对应起来。这么做的结果是什么？刚才看到了，推理机推出的一个结论是：碗能盛汤，而且这个推理和降射无关，所以现在推理机仍然会推出“碗能盛汤”，但现在碗实际上是包含破碗的，所以机器人可以用破碗盛汤，这显然是错误的！由此可见，不适当的降射可导致知识库出大问题，因此破碗不能在降射中与bowl对应，这样破碗就变成一个未知变元。一般情况下，AI 设计者能不能预先想到所有未知变元？这就是著名的“知不知”（How to know unknown）问题，是一个非常难的问题。

再看训练法。在一个图像分类比赛中，一个神经网络只要用带标注的数据训练好了，能以很高的准确率识别1000类对象，其中一类是卫生纸。下面我们问：脏的卫生纸是不是卫生纸？如果卫生纸是拿来用的，而不是仅仅要求分类，那么脏的卫生纸就要和卫生纸区别开，这就意味着：被分类的对象不是预先设计好的1000类，而是1001类。这是降射问题在训练法中一种表现，我们在训练法中同样遇到了“知不知”问题：能不能提前想到所有未知变元？如果想不到，如何收集相关的数据，训练出合适的神经网络？所以，训练法（包括深度学习）并没有给出降射问题的解决方案，同样面临着降射挑战。

一般地说，降射挑战背后的原因是场景变异无尽性：人们通常只想到典型场景和一部分非典型场景，其他没想到的可能场景到底有多少、有哪些，是不知道的。而这些无法提前想到的场景往往与想到的场景有所不同，即出现某种“变异”，而变异场景往往包含着未知变元（如破碗或脏卫生纸），它们的出现可导致已经建好的AI 模型（知识库和神经网络）失灵。

由此我们得到一个一般性的观察：在正常情况下，任何AI model，无论是强力法还是训练法的模型，都会丢失一些变元。由于目前强力法和训练法都不能有效处理未知变元或丢失变元，所以都无法胜任存在场景变异无尽性的应用。这是目前人工智能遇到的一个根本性挑战。

面对这个挑战，现有人工智能技术是不是就无能为力了？也不是，有一个简单的办法——封闭性准则：把典型场景和一部分非典型场景选出来，把它们封闭化，而其他场景都被排除，可以不考虑。这里的“不考虑”不是简单的忽略，而是通过采取具体措施，保证不考虑的场景即使出现了，也不会产生致命的后果，不会影响应用。这套方案叫做封闭性准则。

我发现，阿尔法狗也是符合封闭性准则的。我把第四代阿尔法狗的工作原理总结成一张图，说明它在围棋博弈树上下棋的原理。围棋棋盘有361个落子，另外还有一个特殊的落子pass，所以黑棋的第一步棋总共有362 个落子，第四代阿尔法狗直接选其中胜率估计最大的那个落子。白棋的第一步棋也是类似的，但是少一个选项，只有361个落子可选。如果是第四代阿尔法狗走棋，它也是选择胜率估计最高的那个落子走。之后黑棋和白棋的决策原理是一样的，总是选择当前可选落子中胜率估计最高的那个落子走。

由于围棋博弈树上总共有大约10300种不同的棋，太多了，落子的胜率估计没办法实际计算出来。第四代阿尔法狗用蒙特卡洛树搜索，自己和自己下了2900万局棋（自博），从这些自博数据中反推出了所有落子的胜率估计，保存在一个深层残差网络中。之后，它下棋就是按胜率估计的进行决策，根本不考虑不同的对手的下棋策略有什么不同。实验结果是，四代以100比0战胜了三代，而三代战胜了所有人类围棋高手。阿法狗四代没有和人下过，因为它的博弈水平远远超过了人类。

阿尔法狗第四代有哪些核心技术？他们2017年的论文里说得非常清楚，只有四项核心技术，其中前两项是强力法，后两项是训练法，而且有一个重大创新，就是简化的决策论规划模型。为什么简化模型可以成为重大创新？论文里没有说，我帮它说清楚了，这个重大创新就是遵守了我提出的封闭性准则。

封闭性准则对强力法有三个条件，对训练法也有三个条件，我发现阿尔法狗四代都是符合的。封闭性的具体描述，以及阿法狗符合封闭性的详细情况见图3。

图3 封闭性准则

阿法狗的成功及它之前的相关研究表明：虽然强力法、训练法和它们的结合都解决不了围棋问题，但是把围棋问题封闭化之后，用强力法和训练法的结合就可以战胜人类，并远超人类。这是人工智能第三次浪潮取得的重大突破，是人工智能发展史上的一个新的里程碑。

在《智能系统学报》2020年1期的文章中，我提出现有人工智能技术的一个可行应用模式：将应用场景封闭化，根据需要应用强力法、训练法以及它们的结合。这个模式是我从过去5 年的产业调研中发现的，适用于这个模式的场景非常多。这个模式中的封闭化包含完全封闭化、半封闭化和柔性化，需要企业研发人员根据应用的实际情况展开，所以他们是未来15年人工智能产业落地的主力军。

最后简单提一下超越封闭性的问题，过去10年里，中科大机器人团队做过一些尝试。这张图里是我们的“可佳机器人”，它的预期目标是在家庭环境中当机器人保姆。我们使用了强力法和训练法，但仍然有一些问题不能解决，所以提出了“开放知识”和“融差性”原理。应用这两种办法，可以让可佳机器人在非封闭性场景中更好工作，比如完全自主地操作微波炉加热食品。最初版本在2010年就实现了基本功能，但环境一旦发生改变，机器人可能就无法正常完成任务。去年我们得到一个改进版，人可以给机器人捣乱，破坏机器人工作的条件，这是体现环境变化的一种方式，在实际应用中也经常发生。在这种情况下，可佳机器人依然可以正常完成任务。我们还研制了一种柔性手爪，它不需要获得准确的信息，就能抓很多不同形状、大小和硬度的东西，比如能“一视同仁”地抓木块和豆腐。其中的主要原理就是融差性。还有情感交互机器人“佳佳”，也是在非封闭性条件下工作的。现在的一项主要研究是要识别非关键词意图，这种用户意图是用关键词无法表达的。

最后对未来15年做一个展望。首先是大规模产业应用，根据封闭性准则，只要对应用场景做封闭化，现有人工智能技术就能成功应用。所以，大批企业无需等待更强大的人工智能技术的出现，就能实现很多行业和产业部门的转型升级。

第二点展望。在未来15年中，人工智能的发展模式会发生一个重要的转变，过去完全是基础研究驱动的，而未来15年中大规模产业应用将成为主要驱动力，而且中低端产业是驱动力的主要来源，因为中低端产业是和用户的需求直接挂钩的，是最能反映用户需求的改变。同时，基础研究将在AI 的更深层次展开探索，从而为2035年之后的产业应用奠定基础。

第三点展望是关于人工智能伦理的，这也是当前的一个重大课题，同时也是未来战略竞争的一个新维度。过去的竞争是产业竞争，后来变成产业+ 科技，现在正变成产业+ 科技+ 伦理。