2020年5月,1750 亿参数级别的万能语言模型GPT-3诞生,一跃成为AI界的流量巨星。有人高呼“通用人工智能”的破冰而出,也有人质疑这不过是一场严重依赖数据和算力资源的氪金游戏。
人类语言错综复杂,机器以假乱真的“模仿游戏”绝非易事。作为人工智能皇冠上的耀眼明珠,自然语言处理会成为黄金时代的宠儿,还是误入歧途的悲情英雄?学术界与产业界的革故鼎新,又路在何方?
2020年中国科技峰会系列活动青年科学家沙龙上,第20期AI Time圆桌会议邀请了百度人工智能技术委员会主席何中军、清华大学计算机系副教授刘知远、北京彩智科技有限公司CEO徐剑军、中国科学院计算所研究员兰艳艳,由北京交通大学副教授万怀宇和AI Time负责人何芸主持,共话自然语言处理的研究瓶颈与未来曙光!
1. 算法的瓶颈与突破
机器:“无知”的文盲
过去大家经常听到一个段子:在翻译外文著作中把把中国的哲学家Mencius(孟子)错译为门修斯,这是由于缺乏相关背景知识造成的。作为领域专家尚且会犯这种错误,可见融合知识对于人类而言也是非常具有挑战性的。而不懂运用知识和常识,机器很多时候只是在一本正经地胡言乱语。
即便是目前临近数据驱动和计算的极限状态的GPT-3,也会在执行文本生成任务时答非所问,连基本的常识和简单的逻辑推理都不过关。非常典型的例子就是:
How many eyes does my foot have?
我的脚有多少只眼睛?
Your foot has two eyes.
你的脚有两只眼睛。
因此,单纯基于现有数学模型计算的方式,对理解自然语言的语义仍有着极大的局限性。打破语义解析和建模的瓶颈,结合知识和常识是一个非常关键的方向。
知识和常识如何定义和获取?
常识是难以界定的、宽泛抽象的东西。从统计时代到深度学习,机器从数据中捕捉和学习共现规律。然而,人类很多常识并不以明确可见的数据形式存在,即便搜刮互联网的边边角角,也很难挖掘到这样的数据。机器能否学到常识?如何描述、存储和积累常识?这条路是否行得通,语言理解真的需要跨越常识这座大山么?
最近知识图谱在NLP中的融合取得了巨大进展,然而现在很多知识图谱是利用手工自建的方式,能否自动构建大规模知识,仍待攻克。
跨模态的自然语言理解
实现从感知到认知、从NLP到NLU,兰艳艳强调也可以引入多模态。语用学证明,语言的真正含义不一定在字面意义上体现,需要结合特殊场景挖掘其隐含意图。例如小朋友们微信聊天:
问:你要玩游戏吗?
答:我妈妈在家。
很多时候,融入视觉听觉、活动历程、主体与环境的交互等多模态信息,才能达到更准确的语言理解。要捕捉弦外之音,需利用外部知识的支持。
“举一反三”的抽象学习
目前人工智能数据驱动的方法,更多是举十反一:学习“十”分数据、达到“一点”泛化的能力。反观人类,则拥有举一反三的智慧。人的大脑是有可塑性和变通性的,能利用极少的数据学到知识并扩展运用到其他领域。
因此,尽管GPT-3能够激活现实世界中极大规模的无监督数据,但绝非终点。在利用现实世界数据的基础上,我们还需要突破当前深度学习中数学建模、函数学习的研究范式,尝试构建世界认知模型,让机器具备抽象学习的能力。
术业有专攻:小而精的行业数据
目前,大规模预训练模型在很多NLP任务上拔高了层次。但术业有专攻,拿体量巨大的通用模型GPT-3应用到极小的细分领域,仍是行不通的,并且无异于大炮打蚊子。或许在某些特定任务上收集更高质量数据并融入知识进行训练,能够更精准高效地解决问题。
之前我们青睐大数据,其实比起依赖数据扩充,一个很有意思的研究方向是知识迁移,譬如小样本( few-shot )甚至零样本学习( one-shot learning )。
2. 人才培养与产业落地
顶天立地:产学研的结合
在何中军看来,百度一贯追求“顶天立地”的理念,一方面脚踏实地做基础研究,另一方面立足于用户和产业的需求。这也是一种软硬实力的结合,将学校的基础知识和工程能力快速应用到产品、服务和不同场景中去。
从学术角度,研究者应当破除深度学习的假象,不满足于跑跑模型达到效果就万事大吉的走捷径心态,而是深入探究底层原理。从产业角度,尤其需要知其所以然、懂得算法原理,同时又能深入到场景和具体领域、掌握其数据资源和知识结构的关键人才,然而这种人才无法通过传统的学校教育方式培养。在产业链中,我们会被各种持续不断的问题困扰,现阶段技术远远难以满足用户的终极需求。
学术界和产业界应当形成一个互动互惠的生态圈。学术圈不应过分崇尚论文为王的竞争法则,学术成果固然重要,但创造社会价值、解决实际问题才是根本目的。同时,技术产业应用也受限于科学问题的变革与突破,因此急需沉心静气的基础研究者。徐剑军坦言,背负盈利压力、讲求快速增长迭代的企业,要面向一个NLP产业问题持续数十年踏踏实实埋头耕耘,会面临业界过高的期望值、人才受到太多诱惑等外界干扰。
针对高校研究与工业脱节的现象,如何各取所长、携手并进,刘知远指出,我们需要探索出一种新型的人才培养与科研模式,例如业界对学术界的算力支援、提供类似维基百科这样开放共建的公益平台等。对知识产权的尊重与保护、避免创新思想被大公司窃取侵吞也是亟待解决的问题。
NLP为何难出独角兽?
计算机视觉领域有以包括商汤、旷视在内的“CV 四小龙”为首的独角兽公司。然而,尽管NLP研究近年来突飞猛进、甚至在ACL 2020中投稿数量高达3429篇,该领域却似乎难以涌现出独角兽。
这或许是因为一方面,单纯人脸识别或者安防系统,就可以构成很大的场景,成就一家专门的公司。然而NLP中的文本分析等任务,似乎还局限于小范围场景。另一方面,产业落地受到技术限制,例如智能音箱仍无法做到真正的语言理解,机器同传也出现层出不穷的错误。NLP本身的复杂性,决定了它离产业爆发还有一定距离。
另外,NLP的落地在于与不同场景融合,尤其是法律、医疗等以语言或文本为重要载体和工具的领域。随着技术进步,在智能个人信息助理、智能问答方面,NLP技术或许会彻底改变搜索引擎这种获取信息的方式,针对你提出的问题实现音视频结合的精准回答,逐渐成为日常基础设施!
3. 人与机器,路在何方?
深度学习时代,自然语言处理似乎胜利在望,却又迷雾茫茫。从知识融合到认知推理甚至情感表达,实现可解释的、去伪存真的语言理解,依旧道阻且长。
可以预见,未来必定是人机共存的世界。机器消费着人类积累的信息,同时产出信息,从新闻、网聊到小说无处不在。计算机会通过信息间接控制人类社会吗?人的主体地位在哪里?如今出行都离不开导航的我们,未来又会对机器产生怎样的依赖?
尽管现在的语言智能时常懵懂如孩童,然而在保险、银行、证券或政府部门等具体行业,通过实现自然语言的输入输出、培养出一个堪比三十岁人类的智能职员,是大有可为的。非创造性、机械重复的劳动,终将被取代!
在知识的记忆和提取上,AI或许会超越人类。曾经勤学苦练数年才掌握一门外语的你,或许已经面对机器翻译的出色表现哑口无言。未来教育中,“知识就是力量”还会是至理名言吗?怎样的知识才值得人类去学习与创造呢?
主持人最后的话让人一愣:所以学就应该学人工智能是吗?