西湖大学特聘研究员张岳：自然语言处理的一些瓶颈思考与探索-

以下是张岳研究员的演讲实录：

我分两部分给大家介绍我们最近的研究，第一部分简单回顾一下自然语言处理的进步；第二部分分享一下我思考的一些瓶颈问题。

首先看看自然语言处理方向的进步。不管是在学界还是工业界，我们都可以看到对话系统既能够帮助人进行情感交流，又可以帮助人进行一些简单任务的完成；机器翻译可以帮助我们把整本书翻译成不同的语言；机器自动文摘效果也是不错的。

这些进步主要是受益于大规模预训练的语言模型，这些模型的基本工作方式是制作一个深层的神经网络，通过预测互联网上的文本进行预训练。基本的原理就是把句子中的词随机掩盖掉，作为完形填空题，教机器填被掩盖掉的部分。或者让机器背下来，自左向右复述互联网上的文本语句。我们能够训练这样一个语言模型的神经网络，做下游任务可以成为一个不错的初始值和一个不错特征的提供工具。也就是，从大量的生文本里获得了一些语言知识，这些知识被证明还有词法、句法、语义甚至一定的常识知识，所以可以帮助我们把任务做好。

这是GLUE和SuperGLUE，自然语言处理领域一些常用的一些数据集集合。这些集合里包括了阅读理解、句法任务、情感分析、自然语言的文本推理等。像 BERT 这样的预训练模型，在这些任务上都做到了接近甚至超越人类的程度。事实上在最近，当你公布一个数据集以后，不久大家就会把模型准确率调到90多甚至调到很高。这证明了什么？证明我们自然语言处理真的能够接近或者超过人类吗？或者换一个角度，是不是仅仅证明我们现在这些预训练模型做题可以做的非常好？做题和解决问题是两个概念。

相信在产业界的老师更知道自然语言处理可能在实际应用上还存在一些瓶颈，下面介绍我们一些思考。首先看看一些小小的现象。比如客服对话。这句话里，顾客想买四个苹果，他发现说错了，他实际上想买四根香蕉。机器人说“我已经把四个苹果和四个香蕉加入到你的购物车里了。”误解了人的修正话语。还有机器翻译等文本生成会经常犯一些小地方的问题，细节问题。这里举一个文本总结的例子。大家看大部分的文章是关于英国人洗车习惯的，总体上总结的不错。32%的人说他不再洗车了，这件事情也对；但是后面12% 的人说他自己干的这件事在细节上是错的，他并不是 12%的人在请自己的家人给他洗车，而是12%的人做了其他事情。所以这些小地方出错对于自然语言处理的落地应用，影响还是非常大的。

所以我们进行了一些思索，现在如果用大规模的预训练去做，它可能会学到很多东西，并且学会解题，这种解题方式让我联想到可能是题海战术式的学习，做过类似题也许我就知道这个题该选择B还是C。它可能积累了一些经验，但是这些经验并不一定真正理解了这道题背后的物理知识、数学知识、化学知识，只是通过题海战术积累了大量的解题经验。我可能积累了很多模式，很多统计学上的意义，但是实际并不一定证明你理解了句法语义或者常识。这有一个巨大问题，没有举一反三和融会贯通的能力。

我是不是真正学懂了？是不是能够探索一下题海战术和死记硬背的瓶颈到底在哪里？我们从三个方向在思考这个问题。一个是在直接简单的事情，我们想看看机器是不是真的有常识，是不是真正懂在人类交流过程中很多自然语言的基本常识；第二个方向在一个对话任务上，看看自然语言理解的工具是不是懂人类社会的常识；最后想看看你逻辑推理的能力，能不能进行有效推理。

先看常识。我把火鸡放到冰箱里，可能不会有问题；但是如果我说一句话“我把大象放到了冰箱里”，可能你会觉得这句话很奇怪。我们想看看机器是否有这样的判断能力，同时尽量考虑这个模型是不是投机取巧在做这道题。为此设计了三个从简单到难的任务来验证这个能力，一是判断题，希望这个模型能够从两句话中比较出哪一句话更符合常理。二是选择题。在这个问题的基础上，我们想让模型给一个解释，为什么觉得“把火鸡放在冰箱里”更合理？有效地解释是大象太大了放不进冰箱，其他的解释选项是大象有四条腿或者大象是灰色的等；如果机器能够从几个解释里选择一个，我们可能就有更多的证据证明这个机器是有判断常识的能力。三是问答题，直接让生成式的模型产生原因。我们用人标注标准的原因，同时人来评价他生成的原因到底对不对。

再举一个例子，“他考试得了A所以很伤心”或者“他考试得了F所以很伤心”。这里有一个人类知道的常识， A就是考的好，F就是考的不好。

以下是BERT等模型的结果。没有经过微调（在题库上训练）的预训练模型在判断题上能达到 70%，在原因选择上的选择只能达到 40%以上，并不能算的非常好。这些类题人都能做到99%以上，错误也是因为审题审的不好。现在看看如果我们拿8000道题训练一个模型，1000去开发，1000去做训练，另外1000做测试，会怎么样？我们发现这个机器涨了，判断题从70%多涨到了90%多，从选择题40%多涨到了90%多。这个原因存在两种可能的解释，一是BERT里有常识，我通过一个训练知道如何挖掘这个常识；另外一个解释就是BERT做了应试教育，从8000道题一套题海找到了投机取巧的方式。再看写作的题，如果让机器生成真正的原因，即使有了训练做的也还是比较差的，生成的结果也不尽人意。

仔细分析判断题和选择题做对的原因，在这个问题上还是有很多可以让机器投机取巧的地方。比如，正确答案和错误答案的长度有差别；正确答案和错误答案含有的否定词有差别；正确答案和错误答案和这个题的匹配程度也有不同；最后开发集和训练集里的匹配程度也有不同。我们通过这个测试可以得到初步的结论。常识这部分总做就介绍到这。

再看下一个工作。这个工作主要是在对话过程中验证机器有多少社会常识和基本推理能力。大家知道闲聊对话里很多对话系统已经可以和人进行不错的交流，但是我们注意到一个现象，很多过程中重要的信息在话外，不在话里。比如这个对话里，有个人说了“你享受你的晚餐了吗？”他说“晚餐非常不错，我喜欢你的饭馆，我和我的亲戚们可以聊天，Johnny也有地方玩。”这个对话虽然没有直接提到Jonny是谁，人类听者也能猜到是谁。如果是机器能够掌握这些信息吗？如何挖掘话外的常识信息？

我们和微软亚洲研究院合作做了一套数据集，这个数据集是从高考的听力题里转换出来的，把听力题进行了语音识别、图像识别，用众包的方式标了一下。给定一段对话，这套数据测试言语之外信息，看看机器能不能合理接上后面的话。这个题在标的过程中特别注意了数据集可能存在的取巧的把柄。共有8860个对话，每个都是多选题。这里面常识的类型可以分为几类，比如一类是人类情绪态度的推理，这句话谈到了“我想知道你第一次演出的时候你的心情怎么样？”答者没有直接说他的心情怎么样，他只是说“我第一次演出的时候我的腿在打颤，我都站不住了。”我们的选项里包含了“我能想象你第一次演出有多紧张”“我也会很高兴”和“你为什么会失望”等。你需要理解腿打颤和紧张的关系才能做应答。

再看第二类问题。这里包含时差，我们需要在时间日期上进行正确的推理。

第三类问题就是对下一步一般人的选择需要有一个正确推断。比如这道题里以前他出现了财务问题，可能上不了学了；第二个人说“现在缓解了，我能够得到奖学金了。”那么正常人的选择应该是继续他的学业。

第四类问题需要对周围的环境做很好推断，才能做不错的答复。比如这个人说“对不起别抽烟了。”“我不知道这个桌子不能抽烟，你给我找一个能抽烟的桌子吧。”“对不起没有桌子能够抽烟。”然后让你分析你是在医院还是餐馆还是公交车里。如果能猜出来在餐馆里，可能会说“那你把菜单拿过来，我点菜吧，不抽了”。

第五类问题需要很多事实融合。比如这个博物馆过去花了2000美元买了一个雕像，现在值200万美元。这个参观者说“我很高兴我花了30美元买这个门票。”正确的答案是这一个，说“价值300万美元的雕塑也很高兴”，意思就是我们很欢迎你的到来。

我们测了不同的闲聊模型，以及预训练的BERT等模型，发现它们比人类还是有一定差距。此外，模型在数学计算和环境推理这些字面上答案和上下文差别很大的类型表现的最差。题海战术算出来的模型算不好算术。

后边一些实验反映了题库的质量。有很多任务都是把一道题的某一部分去掉，模型还是做好。但是这套题不行，如果把对话里的某些上下文去掉，它会做的非常差。另外长的对话并不一定意味着挑战更高，关键信息在话外。

最后一个工作，我们发现逻辑推理是死记硬背的题海战术绝对难以解决的问题。这套题我们是从公务员考试里挖出来的。这种推理问题是人类仔细思考都能做出来的，真正理解可以做出来的。我们也是收集了8600多个这种问题，这套数据是一个标准的阅读理解形式的数据，就是给了一个文档以后，需要判断这个答案ABCD哪个对。我们也是把这个问题分为很多种类，比如概念和范畴的推理，认识林女士的人都是什么样的人？根据这些概念的定义能推出来哪些符合这些概念；比如还有类似的问题，就是什么是一支蜡笔，以下哪些东西是蜡笔之类的这种概念理解问题。第二个就是充分条件的推理，A一定能够推出B，这种充分条件的理解帮助你做这种题。第三类问题就是必要条件，是说如果B存在A一定要存在，A是B的必要条件，这样的逻辑推理问题。另外还有选言推理，就是如果A和B都存在，那么 C也会存在。还有一类就是联言推理问题，A 和 B必须同时存在，那么C才会存在。

我们也是评价了各个最强的阅读理解模型在这样的问题上表现如何。大家可以看到如果随机做题的是25%，人如果认真做的话可以达到百分之八九十的境地；但是像BERT这样非常好的模型，有针对性地进行训练之后，只能做到30%多。这表现了当前的晚落模型不具备抽象总结的能力，至少在抽象出逻辑关系这点上表现很差。

下边展示不同推理模型上的效果。在概念学习上死记硬背可能还是有所收获（做对一半），但是后面这些其他推理类型上还是惨不忍睹（比随机还要差）。这套题也不会因为题目更长而让模型做的更差，有时短题反而更难。这里是一些消融实验，也是证明了这套题不会有一些偏向，如果去掉了一些关键成分，模型的表现会变得非常差。

今天主要给大家分享了我们在自然语言处理瓶颈上的一些探索，我觉得预训练的语言模型确实能够给自然语言处理带来很多提升，提升可能还是从收集的这些统计意义上的信息来提升，也就是说很多地方可以做到八九不离十，但是细微的地方可能还会出错。我们分析了常识、社交方面的常识推理、纯的逻辑推理三个方面，发现这个模型在纯的逻辑推理上还做的非常差，在数学上做的非常差。这些也许需要和知识做些结合，和符号主义算法进行互补。

（本报告根据速记整理）