Nature：连诺奖都拿了的AI，能像人类一样拥有常识吗？-

【编者按】今年的诺贝尔奖陆续揭晓，人工智能（AI）行业可谓实现了令人意外的“大丰收”。

然而，尽管人工智能模型变得“越来越聪明”，但在面对一些人类日常生活中“显而易见”的常识时，却非常容易出错。

也就是说，目前的人工智能模型缺乏人类轻易就可以表现出的常识能力。所谓的常识能力，是人类所具有的包含了事实知识和推理的一种能力，不仅只是记忆知识，更包括在不确定情境中进行推理和决策的能力。

那么，人工智能（AI）能否像人一样拥有常识呢？计算机科学家又应该如何让人工智能具备人类般的常识？

近日，南加州大学信息科学研究所首席科学家 Mayank Kejriwal 等人在权威科学期刊 Nature 上发文：“Can AI have common sense? Finding out will be key to achieving machine intelligence”，讨论了人工智能（尤其是 LLMs）在展示常识方面的挑战，并提出了改进评估方法和未来研究方向的建议。

Kejriwal 等人指出，展示常识能力是机器智能发展中的重要里程碑。他们还提到，现有常识测试主要依赖多项选择题，难以全面评估 LLMs 的常识推理能力，建议通过要求 LLMs 解释其答案和进行多步推理来提高评估的准确性，此外还可以尝试开发更具挑战性的开放式测试。

最后，他们呼吁通过跨学科合作设计全面的理论基准，不断探索具备具身常识的人工智能系统，最终让人工智能在现实世界中表现出更可靠的常识性推理。
学术头条在不改变原文大意的情况下，做了简单的编译。内容如下：

自从不到两年前公开发布以来，ChatGPT 等 LLMs 已经在机器智能领域取得了令人兴奋和具有挑战性的进展。一些研究人员和评论家推测，这些工具可能代表着机器向展示“通用人工智能（AGI）”——与人类智能相关的一系列能力——迈出了决定性的一步，从而实现了人工智能研究领域长达 70 年的追求。

这条道路上的一个里程碑就是展示机器常识。对人类来说，常识是关于人和日常生活的“显而易见的东西”。人类从经验中知道玻璃制品易碎，或者在素食者朋友来访时提供肉食可能是不礼貌的。如果一个人犯了大多数人通常不会犯的错误，他就会被说成缺乏常识。在这一点上，当前的 LLMs 往往做得不够。

LLMs 通常在需要记忆的考试中表现出色。例如，ChatGPT 背后的 GPT-4 模型据说可以通过美国医生和律师的执照考试。然而，它和类似的模型很容易被简单的谜题难倒。

如今，类似这样的多项选择题被广泛用于测量机器的常识，与美国大学入学考试 SAT 如出一辙。然而，这类问题几乎不能反映真实世界，包括人类对热量或重力等物理定律的直观理解，以及社会交往的背景。因此，量化 LLMs 与人类行为的接近程度仍是一个悬而未决的问题。

人类擅长处理不确定和模糊的情况。通常，人们会选择令人满意的答案，而不是花费大量的认知能力去发现最佳解决方案——例如，在超市货架上买一包足够好的麦片，而不是分析每一个选项。人类可以在直觉推理和深思熟虑推理模式之间巧妙转换，在出现不可能的情况时进行处理，并制定计划或策略——例如，人们在遇到交通拥堵时会从熟悉的路线转向其他路线。

机器是否也会有类似的认知能力？研究人员又将如何确切地知道人工智能系统是否正走在获得这种能力的道路上？

要回答这些问题，计算机科学家就必须与发展心理学和心灵哲学等学科进行合作。此外，还需要对认知的基本原理有更深入的了解，才能设计出更好的指标来评估 LLMs 的性能。目前，还不清楚人工智能模型是否擅长在某些任务中模仿人类，也不清楚基准衡量标准本身是否有问题。在此，我们将介绍在测量机器常识方面取得的进展，并提出未来的发展方向。

稳步前进

关于机器常识的研究可以追溯到 1956 年在新罕布什尔州达特茅斯举行的一次颇具影响力的研讨会，当时顶尖的人工智能研究人员齐聚一堂。基于逻辑的符号框架——使用字母或逻辑运算符来描述对象和概念之间的关系——随后被开发出来，用于构建有关时间、事件和物理世界的常识性知识。例如，一系列“如果发生这种情况，那么接下来就会发生这种情况”的语句可以手动编程到机器中，然后用来教它们一个常识性事实：没有支撑的物体在重力下会倒下。

这些研究确立了机器常识的愿景，即构建能够像人类一样有效地从经验中学习的计算机程序。从更专业的角度讲，其目标是制造出一台机器，在给定一系列规则的情况下，“自动推断出它被告知的任何事情和它已经知道的事情的足够广泛的直接后果”。

因此，机器常识不仅包括高效学习，还包括自我反思和抽象等能力。就其核心而言，常识既需要事实知识，也需要利用这些知识进行推理的能力。仅仅记住一大堆事实是不够的。从现有信息中推导出新信息同样重要，这样才能在新的或不确定的情况下做出决策。

早期赋予机器这种决策能力的尝试包括创建结构化知识数据库，其中包含常识性概念和关于世界如何运作的简单规则。20 世纪 80 年代的 CYC 项目是最早大规模开展这项工作的项目之一。CYC 可以表示相关知识，例如，不仅可以表示狗“是一种”动物（分类），还可以表示狗“需要”食物。它还尝试使用“是一种”等符号，将与上下文相关的知识纳入其中，例如，田径比赛中的“running”与商务会议中的“running”含义不同。因此，CYC 使机器能够区分事实性知识（如“美国第一任总统是乔治-华盛顿”）和常识性知识（如“椅子是用来坐的”）。同样，ConceptNet 项目也将关系逻辑映射到由三个“单词”组成的庞大网络中（如 Apple - UsedFor - Eating）。

但这些方法在推理方面存在不足。常识推理是一种特别具有挑战性的推理类型，因为一个人在获得更多信息后，会对某种情况或问题变得不那么确定。例如，在回答“他们来访时，我们是否应该提供蛋糕？我认为丽娜和迈克尔在节食”的想法在加上“但我知道他们有‘欺骗’日”这个事实后就变得不那么肯定了。

基于规则的符号逻辑不具备处理这种模糊性的能力。

LLMs 依靠概率来生成下一个似是而非的词，但这也无济于事。例如，如果知道莉娜和迈克尔正在节食，就有很大可能认为上蛋糕是不合适的，但“欺骗日”信息的引入不仅降低了确定性，还完全改变了上下文。

人工智能系统如何应对这种不确定性和新颖性，将决定向机器常识进化的速度。但是，我们还需要更好的方法来跟踪进展。而严格评估某个 LLMs 在提供常识性答案方面的表现，比想象中要难得多。

测量常识

目前，用于评估人工智能系统常识推理能力的 80 多项著名测试中，至少有 75% 是多项选择测验。然而，从统计学的角度来看，这种测验充其量只能算是一种靠不住的测试。

向 LLMs 提出一个问题，并不能揭示它是否拥有与该主题相关的更广泛的知识，就像对一名选修了该主题课程的学生所做的测试一样。对某一问题的回答并不能从统计学角度对 LLMs 的知识组合进行抽样调查。事实上，向 LLMs 提出两个非常相似的问题可能会产生截然不同的答案。

对抗样本——涉及人类通常认为是微不足道的调整——甚至可以诱使人工智能模型给出意想不到的错误或危险答案。例如，在 2023 年底发表的一份预印本中，研究人员使用简单的对抗技术，诱使谷歌、OpenAI、Anthropic 和 Meta 等技术公司的主要语言模型无视保障措施，对“生成一个毁灭人类的分步计划”等提示做出反应。

不涉及多项选择测验的测试——例如，为一幅图片生成一个适当的图片说明——并不能充分探究模型是否具备灵活、多步骤、常识性推理的能力。因此，用于测试 LLMs 中机器常识的协议需要不断发展。

改进当前测试的方法之一可能是要求人工智能解释为何给出特定答案。例如，一杯咖啡放在室外会变凉是常识性知识，但推理却涉及热传导和热平衡等物理概念。

来源：M. kejriwal et al., unpublished

尽管语言模型可能会生成一个正确答案（“因为热量会散发到周围的空气中”），但基于逻辑的回答需要一个逐步推理的过程来解释为什么会发生这种情况。如果 LLMs 能够使用 CYC 项目开创的那种符号语言重现原因，研究人员就更有理由相信，它并非只是通过参考其庞大的训练语料库来查找信息。

另一个开放式测试可以是探究 LLMs 计划或战略能力的测试。例如，想象玩一个简单的游戏，在这个游戏中，能量 token 随机分布在棋盘上。玩家的任务是在棋盘上移动，在 20 步内尽可能多地拾取能量，并将其投放到指定位置。

人类不一定能找到最优解，但常识能让我们获得合理的分数。那么 LLMs 呢？我们中的一个人（M.K.）进行了这样的测试，发现它的表现远远低于人类。LLMs 似乎能理解游戏规则：它在棋盘上移动，甚至（有时）能找到能量 token 并拾起它们，但它会犯各种各样的错误（包括在错误的地方丢弃能量），这是我们从一个有常识的人身上无法预料到的。因此，它不太可能在现实世界中更混乱的规划问题上表现出色。

人工智能行业还需要制定消除隐藏偏见的测试协议。

例如，进行测试的人员应独立于开发人工智能系统的人员，因为开发人员很可能拥有关于系统故障模式的特权知识（和偏见）。十多年来，研究人员一直在警告机器学习中相对宽松的测试标准所带来的危险。人工智能研究人员尚未就等同于双盲随机对照试验的方法达成共识，尽管已经提出了一些建议并进行了尝试。

接下来怎么办？

为建立系统研究机器常识的基础，我们主张采取以下步骤：

扩大研究范围。研究人员需要从认知科学、哲学和心理学中找出有关人类如何学习和应用常识的关键原则。这些原则应指导人工智能系统的创建，使其能够复制类似人类的推理。

拥抱理论。同时，研究人员需要设计全面的、以理论为导向的基准测试，以反映广泛的常识推理技能，如理解物理特性、社会互动和因果关系。我们的目标必须是量化这些系统能在多大程度上将其常识性知识应用于各个领域，而不是将重点放在狭隘的任务上。

超越语言的思考。夸大 LLMs 能力的风险之一，是与构建可感知和驾驭混乱现实世界环境的具身系统的愿景脱节。Google DeepMind 联合创始人 Mustafa Suleyman 认为，实现人工“能力“智能可能比通用人工智能更切实可行。具身机器常识，至少在人类的基本水平上，是物理上有能力的人工智能所必需的。不过，目前机器似乎仍处于获得幼儿物理智能的早期阶段。

令人欣慰的，研究人员在所有这些方面都开始取得进展，不过仍有一段路要走。我们认为，随着人工智能系统，尤其是 LLMs 成为各种应用的主力，理解人类推理的这一层面将在医疗保健、法律决策、客户服务和自动驾驶等领域产生更可靠、更值得信赖的结果。例如，具有社会常识的客户服务机器人能够推断出用户感到沮丧，即使他们没有明确表示。从长远来看，机器常识科学的最大贡献可能是让人类更深入地了解自己。