睡觉做梦正在防止你“沉迷现实，走火入魔”-

地砖纷纷脱离路面，在空中像烟花一样爆开；地面连同楼宇一起折叠，翻转180度，遮蔽了天空；打开不同楼层的门，有的出去是房间，有的出去却是沙滩……这是电影《盗梦空间》中的荒谬场景，而真正的梦境可能比这些更诡异。

奇怪的梦境丨Pixabay

这些离奇的梦从何而来？科学家们一直在尝试使用不同的假说进行“解梦”。最近，科学家再次“脑洞大开”，提出了一个新假说：大脑做这些荒诞的梦，是为了让我们跳出日常经验，避免“过拟合”——简单点说，就是防止我们“沉迷现实，走火入魔”。

而这个解释，正是源于机器学习遇到的困境。

无法被解释的梦

这个新假说来自塔夫大学的神经科学家埃里克·赫尔（Erik Hoel），他近期在《模式》（Patterns）杂志上发表了一篇论文。文中指出，既然机器学习受到了人类大脑的启发，那机器学习遇到的问题是否也可以反过来解释人的大脑呢？

赫尔在论文中提到了梦的体验有三种特性：

稀疏性（sparseness）——梦通常没有现实那么鲜活，缺乏细节。举个例子，我们在梦里往往很难看清书上的字，危险关头要报警也永远按不对110三个数字。

迷幻性（hallucinatory quality）——梦通常光怪陆离，会出现从未发生过的场景，包含不合常理的细节。

叙事性（narrative property）——成年人的梦通常是一系列的事件，能够编织成一个故事。

关于梦的理论有很多，其中比较主流的有记忆巩固假说（memory consolidation hypothesis）：我们在梦里会访问过往的记忆，加强它们，或者把新的记忆整合到旧的记忆里。但赫尔认为，对于某些不符合记忆的梦，这个假说并不能给出解释。

大多数的梦完全不会复现我们的经历，而是和我们重复训练的任务有关系，比如玩了一天的俄罗斯方块之后，你很可能也会做关于这个游戏的梦。

赫尔想到了机器学习中，同样需要经历重复训练的神经网络模型——为了避免模型在重复训练里跑偏，研究者往往需要设立防止它过拟合的方案。赫尔认为，梦境或许并不只是大脑在巩固记忆、调节情绪等过程中溢出的副产品；它们的光怪陆离本身就具有意义，能让我们的大脑，跳出单一重复的日常经验，避免出现过拟合。

过拟合：举一不反三的“刻板学习”

1980年，美国某团队开展了一个机器学习的项目：用神经网络模型来识别坦克。他们收集了200张树丛照片，其中100张图里隐藏了坦克；而被训练的模型，则需要从这200张照片的样本中得出规律，从而学会判断其它的照片里有没有坦克。

经过训练，这个模型的识别准确率高达100%。然而他们最终发现，训练的效果这么好，仅仅是因为：那100张有坦克的照片都是在阴天拍摄的，而另100张没有坦克的照片是在晴天拍摄的。模型并没有学会如何识别坦克，只是学会了根据光线来判断天气。它把偶然的因素当成了普遍的规律，因此缺乏所谓的泛化能力（generalization）——一旦坦克出现在晴天，它就无法正确辨别了。

机器学习也并没有那么“聪明”

虽然这个故事可能只是虚构的，但它却是过拟合的一个生动例证。现在常见的机器学习模型也很容易遇到过拟合的问题——毕竟神经网络太过强大，能看到许多人看不到的规律，或是将偶然的因素当成规律；从而只会“死记硬背”，只能处理和样本一致的内容，而无法触类旁通。避免过拟合的关键在于，要想办法让模型知道，哪些因素是偶然的、可以忽略的，而哪些规律是重要的、要认真学习。

一种常见的方法是数据增强（data augmentation），即对同一张图片进行各种不同的处理（如翻转、随机遮挡或调节对比度），然后再一起作为样本，输入模型，进行学习。这样人为增加随机的干扰，就能防止模型把某一种偶然的现象，当成了普遍的规律。

例如，随机改变亮度、对比度、饱和度的方法，如果用到上述的项目中，就能让模型知道光线不是重点，从而在一定程度上缓解过拟合的问题。

随机改变花的图片的亮度、对比度、饱和度。丨tensorflow

再举个例子，我们想训练一个能分辨猫狗的模型，不过收集的照片中猫猫碰巧都窝在左上方，而狗狗都窝在的右下方。模型可能会把“左上方有东西”当做“猫”，而把“右下方有东西”当做“狗“。要缓解这一窘境，就要让模型知道，位置只是偶然的因素，不是重点。

对猫猫图进行翻转、旋转、缩放、裁剪，可以解决位置因素带来的“过拟合”。丨kdnuggets.com

随机遮盖也是一种数据增强的方法。

随机覆盖丨参考文献[6]

为了避免模型过拟合，研究者将来自日常生活的素材篡改得乱七八糟……这是不是有点梦的意思了？

人脑也会“过拟合”

机器学习中的神经网络模型，原本就是受到大脑的启发才提出来的。而2020年最近的研究表明，这类神经网络模型中重要的学习机制——“反向传播”，在大脑中似乎也能找到对应的神经活动。因此，赫尔认为，或许可以用机器学习的研究反哺神经科学的研究。

人在实际生活中的经验，和机器学习处理任务有一定相似性。我们的日常经验，常常是重复的、相似的，不能对所有可能的环境都有所体验。这就出现了和机器学习一样的问题——有效样本过少。赫尔认为，对于我们复杂而强大的大脑来说，样本过少也有可能导致过拟合——我们只会简单地记住这些经验，而不是从中学到可扩展、可泛化的规律。例如，有研究表明，在一个名为“纹理辨别”（texture discrimination）的任务中，被试如果过度训练，在测试的时候反而会表现得更差。

如果大脑也出现了“过拟合”的问题，那是否可以和机器学习一样，通过“人为增加干扰”的方式解决呢？赫尔认为，梦就是一种干扰。该假说认为，做梦是从生物学上对日常经验进行“加噪”（“Noise injection”）。离奇的梦境产生了一些与现实不符的可感知的信息，远远地偏离了我们的日常经验，从而避免了我们在练习某种任务时过拟合。

赫尔提出了一系列的神经科学方面的证据。他认为，面对这些事实，他的理论比用已有的其它的理论都更有解释力。

首先，白天针对某个任务过量地、重复性地进行训练，是最容易触发梦的。比如，玩了一整天俄罗斯方块和滑雪模拟器，做梦时就会梦相关场景，但这些梦又不是简单的回放。这种偏离能减少过拟合，提高我们在该任务上的表现。

其次，小孩子的梦几乎都是静止的、感知性的（比如“有只小鸟在叫”或“有只小狗站在那里”），而大人的梦常常是叙事性的。赫尔认为，小孩子的感知系统尚未固化，因此可以借助感知性的梦来重组；而成年人可以通过叙事性的梦，来提升他们在认知任务上的表现，这也解释了梦的叙事性。相反，成年人的感知系统经过了充分的训练，已经不存在过拟合的问题了，因此成年人的感知能力无法像小孩子一样通过睡眠提升。

最后，以往研究表明，睡眠能提高在复杂问题中进行抽象和推理的能力。这是因为做梦增强了泛化能力，能让我们对复杂问题产生新的洞见，在认知任务中展现出更多的创造力。在这件事上，梦的过拟合假说也要比记忆巩固假说要更有解释性。

除了神经科学，赫尔还给出了一些机器学习方面的证据。有一种名为“生成对抗网络”的模型，能根据已有样本生成新的样本，来拓展学习的材料，提高在不同任务上的表现。它们生成的样本，有时候会具有一种梦幻般的效果。这种梦与生成模型之间的有趣联系，也能间接印证梦的过拟合假说。

对抗神经网络生成的图片。丨 arXiv:1903.05696

不过，当前的证据，都来自于以往的实证研究。人脑是否真的会像神经网络模型一样，面临过拟合的问题，还有待进一步的验证。为此，赫尔提出了一系列预测。比如，根据该假说，做梦时间的减少，对于死记硬背的能力的削弱，是比对泛化能力的削弱要少的。如果这些预测能被实验验证，该假说的可靠度就更多了一些。

赫尔还提出了一个观点：各种虚构作品，包括小说与电影，都可以看做是某种人造的梦，发挥着相似的功能。以往就有研究表明，阅读或者观看虚构作品，能提高我们理解他人心理状态的能力，这也是一种“从理解自己的心理到理解他人心理”的推广与泛化。赫尔认为，这种广义上的“对日常经验的偏离”，对我们认知功能的深入发展似乎非常重要，可以一并研究。

参考文献

[1]Nielsen, T.A., and Stenstrom, P. (2005). What are the memory sources of dreaming? Nature 437, 1286–1289

[2]Lillicrap, T.P., Santoro, A., Marris, L., Akerman, C.J., and Hinton, G. (2020). Backpropagation and the brain. Nat. Rev. Neurosci. 1–12.

[3]Stickgold, R., Malia, A., Maguire, D., Roddenberry, D., and O’Connor, M. (2000). Replaying the game: hypnagogic images in normals and amnesics. Science 290, 350–353.

[4]Foulkes, D. (2009). Children’s Dreaming and the Development of Consciousness (Harvard University Press).

[5]Kidd, D.C., and Castano, E. (2013). Reading literary fiction improves theory of mind. Science 342, 377–380.

[6]Zhong, Zhun, et al. "Random erasing data augmentation." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 34. No. 07. 2020.

作者：Charles

编辑：Owl、麦麦、窗敲雨