地砖纷纷脱离路面,在空中像烟花一样爆开;地面连同楼宇一起折叠,翻转180度,遮蔽了天空;打开不同楼层的门,有的出去是房间,有的出去却是沙滩……这是电影《盗梦空间》中的荒谬场景,而真正的梦境可能比这些更诡异。
奇怪的梦境丨Pixabay
这些离奇的梦从何而来?科学家们一直在尝试使用不同的假说进行“解梦”。最近,科学家再次“脑洞大开”,提出了一个新假说:大脑做这些荒诞的梦,是为了让我们跳出日常经验,避免“过拟合”——简单点说,就是防止我们“沉迷现实,走火入魔”。
而这个解释,正是源于机器学习遇到的困境。
无法被解释的梦
这个新假说来自塔夫大学的神经科学家埃里克·赫尔(Erik Hoel),他近期在《模式》(Patterns)杂志上发表了一篇论文。文中指出,既然机器学习受到了人类大脑的启发,那机器学习遇到的问题是否也可以反过来解释人的大脑呢?
赫尔在论文中提到了梦的体验有三种特性:
稀疏性(sparseness)——梦通常没有现实那么鲜活,缺乏细节。举个例子,我们在梦里往往很难看清书上的字,危险关头要报警也永远按不对110三个数字。
迷幻性(hallucinatory quality)——梦通常光怪陆离,会出现从未发生过的场景,包含不合常理的细节。
叙事性(narrative property)——成年人的梦通常是一系列的事件,能够编织成一个故事。
关于梦的理论有很多,其中比较主流的有记忆巩固假说(memory consolidation hypothesis):我们在梦里会访问过往的记忆,加强它们,或者把新的记忆整合到旧的记忆里。但赫尔认为,对于某些不符合记忆的梦,这个假说并不能给出解释。
大多数的梦完全不会复现我们的经历,而是和我们重复训练的任务有关系,比如玩了一天的俄罗斯方块之后,你很可能也会做关于这个游戏的梦。
赫尔想到了机器学习中,同样需要经历重复训练的神经网络模型——为了避免模型在重复训练里跑偏,研究者往往需要设立防止它过拟合的方案。赫尔认为,梦境或许并不只是大脑在巩固记忆、调节情绪等过程中溢出的副产品;它们的光怪陆离本身就具有意义,能让我们的大脑,跳出单一重复的日常经验,避免出现过拟合。
过拟合:举一不反三的“刻板学习”
1980年,美国某团队开展了一个机器学习的项目:用神经网络模型来识别坦克。他们收集了200张树丛照片,其中100张图里隐藏了坦克;而被训练的模型,则需要从这200张照片的样本中得出规律,从而学会判断其它的照片里有没有坦克。
经过训练,这个模型的识别准确率高达100%。然而他们最终发现,训练的效果这么好,仅仅是因为:那100张有坦克的照片都是在阴天拍摄的,而另100张没有坦克的照片是在晴天拍摄的。模型并没有学会如何识别坦克,只是学会了根据光线来判断天气。它把偶然的因素当成了普遍的规律,因此缺乏所谓的泛化能力(generalization)——一旦坦克出现在晴天,它就无法正确辨别了。
机器学习也并没有那么“聪明”
虽然这个故事可能只是虚构的,但它却是过拟合的一个生动例证。现在常见的机器学习模型也很容易遇到过拟合的问题——毕竟神经网络太过强大,能看到许多人看不到的规律,或是将偶然的因素当成规律;从而只会“死记硬背”,只能处理和样本一致的内容,而无法触类旁通。避免过拟合的关键在于,要想办法让模型知道,哪些因素是偶然的、可以忽略的,而哪些规律是重要的、要认真学习。
一种常见的方法是数据增强(data augmentation),即对同一张图片进行各种不同的处理(如翻转、随机遮挡或调节对比度),然后再一起作为样本,输入模型,进行学习。这样人为增加随机的干扰,就能防止模型把某一种偶然的现象,当成了普遍的规律。
例如,随机改变亮度、对比度、饱和度的方法,如果用到上述的项目中,就能让模型知道光线不是重点,从而在一定程度上缓解过拟合的问题。
随机改变花的图片的亮度、对比度、饱和度。丨tensorflow
再举个例子,我们想训练一个能分辨猫狗的模型,不过收集的照片中猫猫碰巧都窝在左上方,而狗狗都窝在的右下方。模型可能会把“左上方有东西”当做“猫”,而把“右下方有东西”当做“狗“。要缓解这一窘境,就要让模型知道,位置只是偶然的因素,不是重点。
对猫猫图进行翻转、旋转、缩放、裁剪,可以解决位置因素带来的“过拟合”。丨kdnuggets.com
随机遮盖也是一种数据增强的方法。
随机覆盖丨参考文献[6]
为了避免模型过拟合,研究者将来自日常生活的素材篡改得乱七八糟……这是不是有点梦的意思了?
人脑也会“过拟合”
机器学习中的神经网络模型,原本就是受到大脑的启发才提出来的。而2020年最近的研究表明,这类神经网络模型中重要的学习机制——“反向传播”,在大脑中似乎也能找到对应的神经活动。因此,赫尔认为,或许可以用机器学习的研究反哺神经科学的研究。
人在实际生活中的经验,和机器学习处理任务有一定相似性。我们的日常经验,常常是重复的、相似的,不能对所有可能的环境都有所体验。这就出现了和机器学习一样的问题——有效样本过少。赫尔认为,对于我们复杂而强大的大脑来说,样本过少也有可能导致过拟合——我们只会简单地记住这些经验,而不是从中学到可扩展、可泛化的规律。例如,有研究表明,在一个名为“纹理辨别”(texture discrimination)的任务中,被试如果过度训练,在测试的时候反而会表现得更差。
如果大脑也出现了“过拟合”的问题,那是否可以和机器学习一样,通过“人为增加干扰”的方式解决呢?赫尔认为,梦就是一种干扰。该假说认为,做梦是从生物学上对日常经验进行“加噪”(“Noise injection”)。离奇的梦境产生了一些与现实不符的可感知的信息,远远地偏离了我们的日常经验,从而避免了我们在练习某种任务时过拟合。
赫尔提出了一系列的神经科学方面的证据。他认为,面对这些事实,他的理论比用已有的其它的理论都更有解释力。
首先,白天针对某个任务过量地、重复性地进行训练,是最容易触发梦的。比如,玩了一整天俄罗斯方块和滑雪模拟器,做梦时就会梦相关场景,但这些梦又不是简单的回放。这种偏离能减少过拟合,提高我们在该任务上的表现。
其次,小孩子的梦几乎都是静止的、感知性的(比如“有只小鸟在叫”或“有只小狗站在那里”),而大人的梦常常是叙事性的。赫尔认为,小孩子的感知系统尚未固化,因此可以借助感知性的梦来重组;而成年人可以通过叙事性的梦,来提升他们在认知任务上的表现,这也解释了梦的叙事性。相反,成年人的感知系统经过了充分的训练,已经不存在过拟合的问题了,因此成年人的感知能力无法像小孩子一样通过睡眠提升。
最后,以往研究表明,睡眠能提高在复杂问题中进行抽象和推理的能力。这是因为做梦增强了泛化能力,能让我们对复杂问题产生新的洞见,在认知任务中展现出更多的创造力。在这件事上,梦的过拟合假说也要比记忆巩固假说要更有解释性。
除了神经科学,赫尔还给出了一些机器学习方面的证据。有一种名为“生成对抗网络”的模型,能根据已有样本生成新的样本,来拓展学习的材料,提高在不同任务上的表现。它们生成的样本,有时候会具有一种梦幻般的效果。这种梦与生成模型之间的有趣联系,也能间接印证梦的过拟合假说。
对抗神经网络生成的图片。丨 arXiv:1903.05696
不过,当前的证据,都来自于以往的实证研究。人脑是否真的会像神经网络模型一样,面临过拟合的问题,还有待进一步的验证。为此,赫尔提出了一系列预测。比如,根据该假说,做梦时间的减少,对于死记硬背的能力的削弱,是比对泛化能力的削弱要少的。如果这些预测能被实验验证,该假说的可靠度就更多了一些。
赫尔还提出了一个观点:各种虚构作品,包括小说与电影,都可以看做是某种人造的梦,发挥着相似的功能。以往就有研究表明,阅读或者观看虚构作品,能提高我们理解他人心理状态的能力,这也是一种“从理解自己的心理到理解他人心理”的推广与泛化。赫尔认为,这种广义上的“对日常经验的偏离”,对我们认知功能的深入发展似乎非常重要,可以一并研究。
参考文献
[1]Nielsen, T.A., and Stenstrom, P. (2005). What are the memory sources of dreaming? Nature 437, 1286–1289
[2]Lillicrap, T.P., Santoro, A., Marris, L., Akerman, C.J., and Hinton, G. (2020). Backpropagation and the brain. Nat. Rev. Neurosci. 1–12.
[3]Stickgold, R., Malia, A., Maguire, D., Roddenberry, D., and O’Connor, M. (2000). Replaying the game: hypnagogic images in normals and amnesics. Science 290, 350–353.
[4]Foulkes, D. (2009). Children’s Dreaming and the Development of Consciousness (Harvard University Press).
[5]Kidd, D.C., and Castano, E. (2013). Reading literary fiction improves theory of mind. Science 342, 377–380.
[6]Zhong, Zhun, et al. "Random erasing data augmentation." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 34. No. 07. 2020.
作者:Charles
编辑:Owl、麦麦、窗敲雨