走向深处：革命性的深度学习为什么有效？（上）-

2018年，计算机领域最重要的奖项图灵奖被颁发给了3位计算机科学家，表彰他们在深度学习领域的开创性工作。

我们今天的生活已经离不开深度学习技术，从手机上的语音助手到聊天机器人，从自动驾驶到自动导航，从搜索引擎到机器翻译，再到最近的大规模预训练模型GPT-4和chatGPT,这些人工智能的应用领域都离不开深度学习。因为深度学习是机器学习的一种重要的技术，而机器学习又是人工智能的重要领域。

图片来源：pixabay

一、深度学习的起源

深度学习最早的灵感来自人脑。不过，深度学习搭建的模型和人脑还是有本质的区别，就像早期的飞机也是从鸟类身上获得灵感，但飞机飞行的原理和鸟类飞行的原理却很不相同。

相关的研究最早可以追朔到1949年，加拿大神经心理学家唐纳德·赫布（Donald Hebb）提出，如果两个神经元同时被激活，它们的突触连接就会被增强，反之有可能减弱。他认为这种神经元之间连接强度的变化是人类学习的生理基础。

1958年，弗兰克·罗森布拉特（Frank Rosenblatt）根据神经元的连接方式，设计了一个最简单的神经网络，将其命名为感知机。

感知机里的节点类似神经元，而神经元之间也有权重，类似突触。感知机只有一层神经元。

【感知机结构】：

笔者供图

虽然在今天，感知机模型可以用几行代码就能写出来，但在上世纪50年代，罗森布拉特只能在提及占了一屋子的IBM 704大型计算机上进行测试。随后，他在康奈尔大学自己专门建了一个实体感知机，并命名为Mark 1。

感知机可以用来完成图片分类的任务。它有很多光传感器，可以用来“看”图片。传感器的接受的数据可以被很多电线连到计算单元里。这些计算单元可以扮演神经元的角色。神经元之间连接的强度则可以通过电位器编码。例如，研究人员把一些人脸的照片输入机器，并且告诉感知机这些照片对应的性别。感知机可以调整神经元之间的连接强度。经过这样的训练后，感知机就能判断图片中人物的性别，让正确的文字亮起来。

多层神经网络的问世

不过，感知机的结构还是过于简单了，很快人们认识到，这种只有一层神经元的简单神经网络只能解决比较简单的问题，但却无法解决过于复杂的问题。

而多层神经网络则面临理论和计算机能力的瓶颈，无法得到应用。到了20世纪60年代末期，神经网络的研究已经基本上停滞了。

到了1985年，可以训练多层神经网络的反向传播算法出现。同时，更强大的也可以支持快速的小数乘法，从而让多层神经网络的出现成为了可能。

1988到1989年，法国计算机科学家杨立昆（Yann Le Cun）在贝尔实验室设计了一个深度神经网络LeNet。这个神经网络包含三层神经元，可以识别各种手写数字。

LeNet经过纪念的迭代后，变成了一个有7层神经元的深度学习模型。这个深度学习模型还采用了一些被称为卷积的方法，可以更全面准确地捕捉图片中的信息。到了90年代中期，贝尔实验室商业化了一批神经网络系统，用于自动识别邮政编码和银行支票。据估计，到20世纪90年代末，全美国大概10%到20%的支票是由深度学习模型识别的。这可能是深度学习最早期的商业应用之一。

然而，还是有很多因素限制了深度学习的广泛应用。例如，当时的计算机速度仍然很慢。杨立昆需要用好几天时间才能训练一个简单的手写数字识别模型。此外，如果想要完成更复杂的任务，需要更多的数据和更复杂的网络结构。这些问题直到21世纪才得到解决。在那之后，深度学习才开始席卷全球，成为人工智能领域最重要的技术，甚至还产生了深刻的社会变革。

文章由科普中国-星空计划（创作培育）出品，转载请注明来源。
作者：管心宇科普作者
审核：于旸腾讯玄武实验室负责人