版权归原作者所有,如有侵权,请联系我们

[科普中国]-最大池化

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

最大池化(max-pooling)即取局部接受域中值最大的点。

介绍常用的池化方法有最大池化(max-pooling)和均值池化(mean-pooling)。根据相关理论,特征提取的误差主要来自两个方面:

(1)邻域大小受限造成的估计值方差增大;

(2)卷积层参数误差造成估计均值的偏移。

一般来说,mean-pooling能减小第一种误差,更多的保留图像的背景信息,max-pooling能减小第二种误差,更多的保留纹理信息。与mean-pooling近似,在局部意义上,则服从max-pooling的准则。

max-pooling卷积核的大小一般是2×2。 非常大的输入量可能需要4x4。 但是,选择较大的形状会显着降低信号的尺寸,并可能导致信息过度丢失。 通常,不重叠的池化窗口表现最好。

应用图像识别CNN经常用于图像识别系统。据报道,2012年MNIST数据库的错误率为0.23%。[11]另一篇关于使用CNN进行图像分类的论文报道说,学习过程“非常快”;在同一篇论文中,截至2011年的最佳公布结果在MNIST数据库和NORB数据库中获得。

当应用于面部识别时,CNN实现了错误率的大幅降低。另一篇论文报道“对超过10个科目的5600张静态图像”的识别率为97.6%。人工培训后,CNN用于客观评估视频质量;所得到的系统具有非常低的均方根误差。

ImageNet大规模视觉识别挑战是对象分类和检测的基准,包含数百万的图像和数百个对象类。在ILSVRC 2014中,大规模的视觉识别挑战,几乎所有排名靠前的团队都使用CNN作为他们的基本框架。优胜者GoogLeNet (DeepDream的基础)将目标检测的平均精度提高到了0.439329,分类错误降低到了0.06656,这是迄今为止最好的结果。其网络应用了30多个层次。在ImageNet测试中,卷积神经网络的性能与人类接近。[54]最好的算法仍然与小或薄的物体纠缠在一起,比如花的茎上有一只小蚂蚁或手里拿着一根羽毛笔的人。他们也有使用滤镜变形的图像的麻烦,这是现代数码相机日益普遍的现象。相比之下,这些图像很少麻烦人类。然而,人类往往会遇到其他问题。例如,它们不擅于将物体分类为细粒度类别,例如特定品种的狗或鸟种,而卷积神经网络则处理这种情况。

2015年,CNN的多层次展现了从广泛的角度发现脸部的能力,包括颠倒,即使部分被竞争性表演遮挡。该网络训练了20万张图像的数据库,其中包括各种角度和方向的脸部以及另外2000万张没有脸部的图像。他们在50,000次迭代中使用了128个图像的批次。

视频分析与图像数据域相比,将CNN应用于视频分类的工作相对较少。视频比图像更复杂,因为它具有另一个(时间)维度。然而,CNN在视频领域的一些扩展已经被探索。一种方法是将空间和时间视为输入的等效维度,并在时间和空间上执行卷积。另一种方法是融合两个卷积神经网络的特征,一个用于空间,另一个用于时间流。基于卷积门限制玻尔兹曼机和独立子空间分析,介绍了用于训练时空特征的无监督学习方案。

自然语言处理CNN也探索了自然语言处理。 CNN模型对于各种NLP问题是有效的,并且在语义分析,搜索查询检索,句子建模,分类预测以及其他传统的NLP任务中取得了优异的结果。

本词条内容贡献者为:

王慧维 - 副研究员 - 西南大学