人类视觉系统是这个世界上最为神奇的一个系统。1981年的诺贝尔医学奖得主David H.Hubel 和Torsten Wiesel的研究表明:即人脑视觉机理,是指视觉系统的信息处理在可视皮层是分级的,大脑的工作过程是一个不断迭代、不断抽象的过程。视网膜在得到原始信息后,首先经由区域V1初步处理得到边缘和方向特征信息,其次经由区域V2的进一步抽象得到轮廓和形状特征信息,如此迭代地经由更多更高层的抽象最后得到更为精细的分类。
简介1981 年的诺贝尔医学奖,颁发给了 David Hubel(出生于加拿大的美国神经生物学家) 和TorstenWiesel,以及 Roger Sperry。前两位的主要贡献,是“发现了视觉系统的信息处理”:可视皮层是分级的。1958 年,DavidHubel 和Torsten Wiesel 在 JohnHopkins University,研究瞳孔区域与大脑皮层神经元的对应关系。他们在猫的后脑头骨上,开了一个3 毫米的小洞,向洞里插入电极,测量神经元的活跃程度。然后,他们在小猫的眼前,展现各种形状、各种亮度的物体。并且,在展现每一件物体时,还改变物体放置的位置和角度。他们期望通过这个办法,让小猫瞳孔感受不同类型、不同强弱的刺激。之所以做这个试验,目的是去证明一个猜测。位于后脑皮层的不同视觉神经元,与瞳孔所受刺激之间,存在某种对应关系。一旦瞳孔受到某一种刺激,后脑皮层的某一部分神经元就会活跃。经历了很多天反复的枯燥的试验,同时牺牲了若干只可怜的小猫,David Hubel 和Torsten Wiesel 发现了一种被称为“方向选择性细胞(Orientation Selective Cell)”的神经元细胞。当瞳孔发现了眼前的物体的边缘,而且这个边缘指向某个方向时,这种神经元细胞就会活跃。这个发现激发了人们对于神经系统的进一步思考。神经-中枢-大脑的工作过程,或许是一个不断迭代、不断抽象的过程。这里的关键词有两个,一个是抽象,一个是迭代。从原始信号,做低级抽象,逐渐向高级抽象迭代。人类的逻辑思维,经常使用高度抽象的概念。
例如,从原始信号摄入开始(瞳孔摄入像素 Pixels),接着做初步处理(大脑皮层某些细胞发现边缘和方向),然后抽象(大脑判定,眼前的物体的形状,是圆形的),然后进一步抽象(大脑进一步判定该物体是只气球)。
这个生理学的发现,促成了计算机人工智能,在四十年后的突破性发展。计算机专家仿照人类大脑由低层到高层逐层迭代、抽象的视觉信息处理机理,建立深度网络模型。深度网络每层代表可视皮层的区域,深度网络每层上的节点代表可视皮层区域上的神经元,信息由左向右传播,其低层的输出为高层的输入,逐层迭代进行传播。从学习算法的定义可知,模拟人脑视觉处理信息的机理的深度网络主要目的是通过对历史数据的逐步学习,将历史数据的经验存储在网络中,且经验伴随着学习次数的增多而不断提高。从深度网络的结构可以看到高层神经元的输入来自于低层神经元的输出,同层神经元之间没有交互。若输入层为输入数据的特征表示,则可以理解为高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象的人类视觉系统信息处理过程1。
人类视觉系统人类视觉系统是神经系统的一个组成部分,它使生物体具有了视知觉能力。它使用可见光信息构筑机体对周围世界的感知。视觉系统具有将外部世界的二维投射重构为三维世界的能力。需要注意的是,不同物种所能感知的可见光处于光谱中的不同位置。例如,有些物种可以看到紫外部分,而另一些则可以看到红外部分。
人类视觉系统的信息处理机制是一个高度复杂的过程,科学家们从生物学、解剖学、神经生理学、心理物理学等方面做了大量的研究,这里主要说明视觉关注、亮度及对比敏感度、视觉掩盖、视觉内在推导机制这四个特性。
视觉关注:在纷繁复杂的外界场景中,人类视觉总能快速定位重要的目标区域并进行细致的分析,而对其他区域仅仅进行粗略分析甚至忽视。这种主动选择性的心理活动被称为视觉关注机制(Visual Attention)。视觉关注可由两种模式引起:其一是客观内容驱动的自底向上(bottom-up)关注模型;另一种是主观命令指导的自顶而下(top-down)关注模型。
自底向上关注主要跟图像内容的显著性相关。心理学研究发现,那些与周围区域具有较大差异性的目标容易吸引观察者的视觉关注。
自顶而下关注受意识支配、依赖于特定的命令,该机制可将视觉关注强行转移到某一特定区域。
视觉关注机制体现了人类视觉系统主动选择关注内容并加以集中处理的视觉特性,该特性能有效提升图像内容筛选、目标检索等图像处理能力。
亮度及对比敏感度:实验表明,人眼对光强度具有某种自适应的调节功能,即能通过调节感光灵敏度来适应范围很广的亮度,同时这也导致了对绝对亮度判断能力较差。因此人眼对外界目标亮度的感知更多依赖于目标跟背景之间的亮度差。换言之,人类视觉系统对亮度的分辨能力是有限的,只能分辨具有一定亮度差的目标物体,而差异较小的亮度则会被认为是一致的。
人类视觉系统非常关注物体的边缘,往往通过边缘信息获取目标物体的具体形状、解读目标物体等。由于视觉系统具有鲁棒性,无法分辨一定程度以内的边缘模糊,这种对边缘模糊的分辨能力则称为对比灵敏度。
视觉掩盖:视觉信息间的相互作用或相互干扰将引起视觉掩盖效应。
常见的掩盖效应有:1)由于边缘存在强烈的亮度变化,人眼对边缘轮廓敏感,而对边缘的量度误差不敏感,即对比度掩盖;2)图像纹理区域存在较大的亮度以及方向变化,人眼对该区域信息的分辨率下降,即纹理掩盖;3)视频序列相邻帧间内容的剧烈变动(如目标运动或者场景变化),导致人眼分辨率的剧烈下降,即时域的运动掩盖及切换掩盖。
视觉掩盖效应使人眼无法察觉到一定阈值以下的失真,该阈值被称为恰可识别失真 (Just Noticeable Distortion)。恰可识别失真阈值在实际图像处理中具有重要的指导意义。该阈值可以帮助我们区分出哪些信号是视觉系统能察觉、感兴基于人类视觉系统的图像信息感知和图像质量评价趣的,哪些信号是视觉系统无法察觉、可忽略的。筛选出能察觉的信息而忽略其余不可察觉信息可以减少图像处理的复杂度,且在一定条件下能改善图像的显示质量。
视觉内在推导机制:最新的人脑研究指出,人类视觉系统并非本本地去理解进入人眼的视觉信号,而是存在一套内在的推导机制 (Internal Generative Mechanism) 去解读输入的视觉信号。
简单的说就是:对于待识别的输入场景,人类视觉系统会根据大脑中的记忆信息,来推导、预测其视觉内容,同时那些无法理解的不确定信息将会被丢弃。
神经网络神经网络可以指向两种,一个是生物神经网络,一个是人工神经网络。生物神经网络:一般指生物的大脑神经元,细胞,触点等组成的网络,用于产生生物的意识,帮助生物进行思考和行动。
人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。或是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在工程与学术界也常直接简称为“神经网络”或类神经网络。
神经网络的研究内容相当广泛,反映了多学科交叉技术领域的特点。主要的研究工作集中在以下几个方面:
生物原型
从生理学、心理学、解剖学、脑科学、病理学等方面研究神经细胞、神经网络、神经系统的生物原型结构及其功能机理。
建立模型
根据生物原型的研究,建立神经元、神经网络的理论模型。其中包括概念模型、知识模型、物理化学模型、数学模型等。
算法
在理论模型研究的基础上构作具体的神经网络模型,以实现计算机模拟或准备制作硬件,包括网络学习算法的研究。这方面的工作也称为技术模型研究。
神经网络用到的算法就是向量乘法,并且广泛采用符号函数及其各种逼近。并行、容错、可以硬件实现以及自我学习特性,是神经网络的几个基本优点,也是神经网络计算方法与传统方法的区别所在。
本词条内容贡献者为:
王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所