技术专家和政策制定者越来越多地强调,需要应对人工智能(AI)系统带来的灭绝风险,因为这些系统可能会逃脱“人类的控制”。
越来越多的研究也表明,利用强化学习(RL)训练的智能体(agent),能比人类更有效地进行长期规划,在很长一段时间内采取能使其回报最大化的行动,这一点尤其令人担忧。
另外,欺骗人类和逃避人类控制的动机不仅会出现在强化学习智能体上,也可能出现在长期规划智能体(LTPA)上。
加州大学伯克利分校计算机科学杰出教授 Stuart Russell、博士后 Michael K. Cohen,以及图灵奖得主、蒙特利尔大学计算机科学教授 Yoshua Bengio 等多位学者认为,虽然各国政府现在都在关注先进 AI 系统带来的风险,但目前的监管工作还不够完善。
为此,他们提出了一种新的 AI 治理机制,用于监督和控制高级 AI 智能体的开发和使用。相关文章以“Regulating advanced artificial agents”为题,已发表在科学期刊 Science 上的 Policy Forum 栏目上。
据介绍,该治理机制的核心监管建议非常简单:开发者/开发商不应被允许构建能力足够强的 LTPAs,而且构建 LTPAs 所需的资源也应该受到严格控制。文章要点如下:
如果一个智能体足够先进,它可能会采取措施确保自己不被关闭,甚至可能会尝试通过控制资源来最大化回报。
限制强大智能体学会对其环境施加的影响是极其困难的。例如,智能体可以说服或付钱给不知情的人类参与者,让他们代表自己执行重要行动。
对于能力足够强的 LTPAs 来说,安全测试很可能要么是危险的,要么是没有参考价值的。
应建立新的监管机构,赋予其法律权威和技术能力,从一开始就防止此类智能体的建立,无论其属于哪个领域。
如果具有危险能力的 LTPAs 在某个时间被允许开发,首先需要进行严格的技术和监管工作,从而确定是否允许、何时允许以及如何允许。
智能体有哪些风险?
在这篇文章中,他们将 LTPA 定义为一种设计用于生成计划的算法,“当计划 A 在很长一段时间内更有利于给定目标时,它会选择计划 A 而不是计划 B”。 他们写道,对于智能体而言,当某些输入被指定为“奖励”时,它会做出能够带来更高回报的行动,能力强、有远见的智能体很可能会非常成功地累积奖励。 最关键的是,要确保以极高的概率持续获得最大回报,智能体就必须实现对环境的控制,而这可能会带来灾难性后果。
然而,智能体要想实现长期回报的最大化,途径之一是获取大量资源、控制所有人类基础设施,从而不受人类干扰。 此外,由于被人类关闭会降低预期回报,有足够能力的智能体很可能会采取措施排除这种可能性,或者在可行的情况下,创建新的智能体(不受监控或关闭阻碍)来代表自己做事。
他们认为,限制具有强大能力的智能体学会对其环境施加的影响是极其困难的。例如,智能体可以说服或付钱给不知情的人类参与者,让他们代表自己执行重要行动。
然而,虽然各国政府都对 AI 带来的生存风险表达了担忧,但 Cohen 等人认为,相关监管提案并没有充分解决这类风险。
例如,欧盟的《人工智能法案》列举了 AI 带来的一系列风险,但没有单独列出 LTPAs 的失控问题;为了解顶尖 AI系统的能力,美国和英国的 AI 安全研究所正在建设监管机构,但缺乏控制 AI 的权力。
而且,他们认为,对于能力足够强的 LTPAs 来说,安全测试很可能要么是危险的,要么是没有参考价值的。如果一个智能体足够先进,能够识别出自己正在接受测试,那么就没有什么理由期待它在测试中和测试外有类似的行为。 虽然目前还没有任何智能体的能力足以挫败人类的控制,但已经发现一些智能体能够识别安全测试并暂停不当行为。
如何治理?
遗憾的是,他们还无法明确定义什么是“足够的能力”。
但是,他们表示,如果有足够的资源对系统进行训练,使 LTPAs 有可能表现出一些危险能力,那么这些系统就应被视为具有“危险能力”。
他们呼吁,由于无法确保对 LTPAs 测试的安全性和有效性,应建立新的监管机构,赋予其法律权威和技术能力,从起点防止此类智能体的建立,无论其属于哪个领域。
监管机构不应该允许开发具有危险能力的 LTPAs,需要对可能用于生产具有危险能力的 LTPA 的资源进行仔细监测和控制。
他们建议,决策者应该制定一份危险能力清单,并估算开发具有这些能力的 LTPAs 所需的资源(算力、数据等)。
如果具有危险能力的 LTPAs 在某个时间被允许开发,首先需要进行严格的技术和监管工作,从而确定是否允许、何时允许以及如何允许。
具体来说,他们提出了以下几点建议:
1)监控及报告:提出 AI 监管应该像核监管一样,对生产具有危险能力的 LTPAs 所需的资源进行控制。这些资源被称为生产资源(PRs),包括超过一定计算阈值的 AI 模型。监管机构可以通过跟踪所需硬件来检测这些资源;建议开发者报告 PRs 的相关信息,如输入/输出属性、数据收集过程、训练目标和测试环境中的记录行为,但不包括模型权重本身。此外,还应报告存储 PRs 的机器及其位置、运行的代码和输出。
2)生产控制:监管机构可以通过了解相关资源来禁止生产具有危险能力的 LTPAs。开发者在开发前可以向监管机构咨询,从而确保系统符合规定;监管机构还可以规定使用不符合要求的系统为非法行为。
3)执法机制:为确保遵守报告要求和使用控制,监管机构可能需要获得授权,包括发布法律命令、审计活动、限制资源访问和处以罚款。对于不合规的组织,还可以追究企业领导者和关键个人的个人责任。
4)监管机构:不同国家可能需要采取不同的方法,但预计特定领域的监管(如金融和医疗)将解决其他风险,而失控风险可能需要建立新的监管机构。
更广泛的担忧
当然,LTPA 并不是唯一一种会带来重大甚至生存风险的 AI 系统。他们建议,针对足够先进的 LTPAs,经验测试是不够的,但可以大大提高其他类型 AI 的安全性。
此外,他们也表示,他们提出的治理制度也可以适用于其他 AI 系统,尽管这些建议填补了一个重要空白,但可能还需要进一步的制度机制来降低高级智能体带来的风险。
参考链接:
https://www.science.org/doi/10.1126/science.adl0625