撰文 | 马雪薇
前言
从《超体》中以药物刺激大脑,到赛博朋克文化中用电子干涉入侵脑空间,人类对人脑操纵的可能性有过很多幻想。想象一下,如果人类真的可以直接操纵人脑的每一个神经元,会怎样呢?
到那时,人类将能够直接理解这些神经元在感知特定物体时的作用,有希望做出一些非常“科幻”的事情。
在现实生活中,这样的实验在人脑中几乎是难以实施的,但在人工神经网络却是可行的。然而,由于模型往往含有数百万神经,过于庞大且复杂,理解起来需要大量人力,这就使得大规模的模型理解成为一项极具挑战性的任务。
为此,来自麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)的研究团队推出了一个利用神经模型自动进行模型理解任务的系统——MAIA,即“多模态自动可解释智能体”。
MAIA 使用预训练的视觉语言模型来自动化理解神经模型的任务。模块化的设计使 MAIA 能够灵活地评估任意系统,并轻松地添加新的实验工具。此外,它可以自动执行复杂的实验,使用迭代实验方法来测试假设,并根据实验结果更新假设。
加州大学伯克利分校助理教授 Jacob Steinhardt 认为,扩大这些方法可能是理解和安全监督人工智能系统最重要的途径之一。但是,研究团队认为, 增强的 MAIA 并不会取代人类对人工智能系统的监督。MAIA 仍然需要人工监督来发现诸如确认偏差和图像生成/编辑失败之类的错误。
真实效果怎么样?
现有的自动化可解释性方法仅仅是一次性地对数据进行标记或可视化,而 MAIA 则能够生成假设,设计实验来测试它们,并通过迭代分析来改进其理解。通过将预训练的视觉-语言模型(VLM)与可解释性工具库相结合,该多模态方法可以通过编写和运行针对特定模型的定向实验来响应用户查询,不断改进其方法,直到能够提供全面的答案。
MAIA 框架的核心是一个由预训练的多模态模型(如 GPT-4V)驱动的智能体,该智能体能够自动执行实验以解释其他系统的行为。它通过将可解释性子例程组合成 Python 程序来实现这一点。
图 | MAIA 架构
研究团队在神经元描述范式上评估 MAIA,研究显示,MAIA 在真实模型和合成神经元数据集上均取得了优异的描述效果,预测能力优于基线方法,并与人类专家相当。
图 | 评估 MAIA 描述
此外,MAIA 在移除虚假特征和揭示偏见方面都表现出良好的应用潜力,可以帮助人类用户更好地理解模型行为,并改进模型的性能和公平性。
用 MAIA 移除虚假特征
虚假特征会影响模型在真实世界场景中的鲁棒性。MAIA 可以识别并移除模型中的虚假特征,从而提高模型的鲁棒性。研究团队使用 ResNet-18 在 Spawrious 数据集上进行训练,该数据集中包含四种不同背景的狗品种。
在数据集中,每个狗品种与特定背景(例如雪,丛林,沙漠,海滩)虚假相关,而在测试集中,品种-背景配对是混乱的。研究团队使用 MAIA 来找到一个最终层神经元的子集,该神经元可以独立于虚假特征鲁棒地预测单个狗的品种,只需改变用户提示中的查询。
结果显示,MAIA 可以有效地移除模型中的虚假特征,从而提高模型的鲁棒性。
用 MAIA 揭示偏见
模型可能存在偏见,导致其在某些情况下表现不佳。而 MAIA 可以自动揭示模型中的偏见。研究团队使用 ResNet-152 在 ImageNet 上进行训练,并使用 MAIA 检查模型输出中的偏见。
在实验过程中,MAIA 被提示生成与特定类别相关的图像,并观察模型对这些图像的响应。之后,MAIA 发现了一些模型对特定子类或与特定类别相关的图像有偏好。
这表明 MAIA 可以帮助识别模型中的偏见,从而改进模型。
图|MAIA 模型偏见检测
不足与展望
虽然 MAIA 在自动可解释性方面展现出巨大潜力,但仍存在一些局限性。
首先,MAIA 的解释能力受限于其使用的工具,如 Stable Diffusion 和 GPT-4。这些工具的局限性(例如图像生成质量、成本、访问限制)会直接影响 MAIA 的性能。未来可以考虑开发更强大的内部工具,或寻找开源替代方案,以提高系统的可靠性和可访问性。
其次,MAIA 的解释并非形式化验证,而是基于实验结果和自然语言描述。这可能导致解释存在偏差或误导。未来可以考虑将形式化验证方法(例如因果推理、理论分析)融入 MAIA,以提高解释的准确性和可靠性。
此外,MAIA 无法完全避免常见错误,例如确认偏差、过度解释、小样本结论等。未来可以考虑引入自我反思机制,使 MAIA 能够识别和纠正自身错误,并提高解释的鲁棒性。
展望未来,这篇论文的共同作者 Rott Shaham 表示:“我认为我们实验室的下一步自然是要超越人工系统,将这些类似的实验应用于人类感知。传统上,这需要手动设计和测试刺激,这是一个劳动密集型的过程。有了我们的智能体,我们可以扩大这个过程,同时设计和测试大量的刺激。”