风口浪尖上的NLP，究竟路在何方？-

2020年5月，1750 亿参数级别的万能语言模型GPT-3诞生，一跃成为AI界的流量巨星。有人高呼“通用人工智能”的破冰而出，也有人质疑这不过是一场严重依赖数据和算力资源的氪金游戏。

人类语言错综复杂，机器以假乱真的“模仿游戏”绝非易事。作为人工智能皇冠上的耀眼明珠，自然语言处理会成为黄金时代的宠儿，还是误入歧途的悲情英雄？学术界与产业界的革故鼎新，又路在何方？

2020年中国科技峰会系列活动青年科学家沙龙上，第20期AI Time圆桌会议邀请了百度人工智能技术委员会主席何中军、清华大学计算机系副教授刘知远、北京彩智科技有限公司CEO徐剑军、中国科学院计算所研究员兰艳艳，由北京交通大学副教授万怀宇和AI Time负责人何芸主持，共话自然语言处理的研究瓶颈与未来曙光！

1. 算法的瓶颈与突破

机器：“无知”的文盲

过去大家经常听到一个段子：在翻译外文著作中把把中国的哲学家Mencius（孟子）错译为门修斯，这是由于缺乏相关背景知识造成的。作为领域专家尚且会犯这种错误，可见融合知识对于人类而言也是非常具有挑战性的。而不懂运用知识和常识，机器很多时候只是在一本正经地胡言乱语。

即便是目前临近数据驱动和计算的极限状态的GPT-3，也会在执行文本生成任务时答非所问，连基本的常识和简单的逻辑推理都不过关。非常典型的例子就是：

How many eyes does my foot have?

我的脚有多少只眼睛？

Your foot has two eyes.

你的脚有两只眼睛。

因此，单纯基于现有数学模型计算的方式，对理解自然语言的语义仍有着极大的局限性。打破语义解析和建模的瓶颈，结合知识和常识是一个非常关键的方向。

知识和常识如何定义和获取？

常识是难以界定的、宽泛抽象的东西。从统计时代到深度学习，机器从数据中捕捉和学习共现规律。然而，人类很多常识并不以明确可见的数据形式存在，即便搜刮互联网的边边角角，也很难挖掘到这样的数据。机器能否学到常识？如何描述、存储和积累常识？这条路是否行得通，语言理解真的需要跨越常识这座大山么？

最近知识图谱在NLP中的融合取得了巨大进展，然而现在很多知识图谱是利用手工自建的方式，能否自动构建大规模知识，仍待攻克。

跨模态的自然语言理解

实现从感知到认知、从NLP到NLU，兰艳艳强调也可以引入多模态。语用学证明，语言的真正含义不一定在字面意义上体现，需要结合特殊场景挖掘其隐含意图。例如小朋友们微信聊天：

问：你要玩游戏吗？

答：我妈妈在家。

很多时候，融入视觉听觉、活动历程、主体与环境的交互等多模态信息，才能达到更准确的语言理解。要捕捉弦外之音，需利用外部知识的支持。

“举一反三”的抽象学习

目前人工智能数据驱动的方法，更多是举十反一：学习“十”分数据、达到“一点”泛化的能力。反观人类，则拥有举一反三的智慧。人的大脑是有可塑性和变通性的，能利用极少的数据学到知识并扩展运用到其他领域。

因此，尽管GPT-3能够激活现实世界中极大规模的无监督数据，但绝非终点。在利用现实世界数据的基础上，我们还需要突破当前深度学习中数学建模、函数学习的研究范式，尝试构建世界认知模型，让机器具备抽象学习的能力。

术业有专攻：小而精的行业数据

目前，大规模预训练模型在很多NLP任务上拔高了层次。但术业有专攻，拿体量巨大的通用模型GPT-3应用到极小的细分领域，仍是行不通的，并且无异于大炮打蚊子。或许在某些特定任务上收集更高质量数据并融入知识进行训练，能够更精准高效地解决问题。

之前我们青睐大数据，其实比起依赖数据扩充，一个很有意思的研究方向是知识迁移，譬如小样本( few-shot )甚至零样本学习( one-shot learning )。

2. 人才培养与产业落地

顶天立地：产学研的结合

在何中军看来，百度一贯追求“顶天立地”的理念，一方面脚踏实地做基础研究，另一方面立足于用户和产业的需求。这也是一种软硬实力的结合，将学校的基础知识和工程能力快速应用到产品、服务和不同场景中去。

从学术角度，研究者应当破除深度学习的假象，不满足于跑跑模型达到效果就万事大吉的走捷径心态，而是深入探究底层原理。从产业角度，尤其需要知其所以然、懂得算法原理，同时又能深入到场景和具体领域、掌握其数据资源和知识结构的关键人才，然而这种人才无法通过传统的学校教育方式培养。在产业链中，我们会被各种持续不断的问题困扰，现阶段技术远远难以满足用户的终极需求。

学术界和产业界应当形成一个互动互惠的生态圈。学术圈不应过分崇尚论文为王的竞争法则，学术成果固然重要，但创造社会价值、解决实际问题才是根本目的。同时，技术产业应用也受限于科学问题的变革与突破，因此急需沉心静气的基础研究者。徐剑军坦言，背负盈利压力、讲求快速增长迭代的企业，要面向一个NLP产业问题持续数十年踏踏实实埋头耕耘，会面临业界过高的期望值、人才受到太多诱惑等外界干扰。

针对高校研究与工业脱节的现象，如何各取所长、携手并进，刘知远指出，我们需要探索出一种新型的人才培养与科研模式，例如业界对学术界的算力支援、提供类似维基百科这样开放共建的公益平台等。对知识产权的尊重与保护、避免创新思想被大公司窃取侵吞也是亟待解决的问题。

NLP为何难出独角兽？

计算机视觉领域有以包括商汤、旷视在内的“CV 四小龙”为首的独角兽公司。然而，尽管NLP研究近年来突飞猛进、甚至在ACL 2020中投稿数量高达3429篇，该领域却似乎难以涌现出独角兽。

这或许是因为一方面，单纯人脸识别或者安防系统，就可以构成很大的场景，成就一家专门的公司。然而NLP中的文本分析等任务，似乎还局限于小范围场景。另一方面，产业落地受到技术限制，例如智能音箱仍无法做到真正的语言理解，机器同传也出现层出不穷的错误。NLP本身的复杂性，决定了它离产业爆发还有一定距离。

另外，NLP的落地在于与不同场景融合，尤其是法律、医疗等以语言或文本为重要载体和工具的领域。随着技术进步，在智能个人信息助理、智能问答方面，NLP技术或许会彻底改变搜索引擎这种获取信息的方式，针对你提出的问题实现音视频结合的精准回答，逐渐成为日常基础设施！

3. 人与机器，路在何方？

深度学习时代，自然语言处理似乎胜利在望，却又迷雾茫茫。从知识融合到认知推理甚至情感表达，实现可解释的、去伪存真的语言理解，依旧道阻且长。

可以预见，未来必定是人机共存的世界。机器消费着人类积累的信息，同时产出信息，从新闻、网聊到小说无处不在。计算机会通过信息间接控制人类社会吗？人的主体地位在哪里？如今出行都离不开导航的我们，未来又会对机器产生怎样的依赖？

尽管现在的语言智能时常懵懂如孩童，然而在保险、银行、证券或政府部门等具体行业，通过实现自然语言的输入输出、培养出一个堪比三十岁人类的智能职员，是大有可为的。非创造性、机械重复的劳动，终将被取代！

在知识的记忆和提取上，AI或许会超越人类。曾经勤学苦练数年才掌握一门外语的你，或许已经面对机器翻译的出色表现哑口无言。未来教育中，“知识就是力量”还会是至理名言吗？怎样的知识才值得人类去学习与创造呢？

主持人最后的话让人一愣：所以学就应该学人工智能是吗？

风口浪尖上的NLP，究竟路在何方？

微信扫一扫：分享