[科普中国]-最大池化- · 科普中国网

最大池化（max-pooling）即取局部接受域中值最大的点。

介绍常用的池化方法有最大池化（max-pooling）和均值池化（mean-pooling）。根据相关理论，特征提取的误差主要来自两个方面：

（1）邻域大小受限造成的估计值方差增大；

（2）卷积层参数误差造成估计均值的偏移。

一般来说，mean-pooling能减小第一种误差，更多的保留图像的背景信息，max-pooling能减小第二种误差，更多的保留纹理信息。与mean-pooling近似，在局部意义上，则服从max-pooling的准则。

max-pooling卷积核的大小一般是2×2。非常大的输入量可能需要4x4。但是，选择较大的形状会显着降低信号的尺寸，并可能导致信息过度丢失。通常，不重叠的池化窗口表现最好。

应用图像识别CNN经常用于图像识别系统。据报道，2012年MNIST数据库的错误率为0.23%。[11]另一篇关于使用CNN进行图像分类的论文报道说，学习过程“非常快”;在同一篇论文中，截至2011年的最佳公布结果在MNIST数据库和NORB数据库中获得。

当应用于面部识别时，CNN实现了错误率的大幅降低。另一篇论文报道“对超过10个科目的5600张静态图像”的识别率为97.6%。人工培训后，CNN用于客观评估视频质量;所得到的系统具有非常低的均方根误差。

ImageNet大规模视觉识别挑战是对象分类和检测的基准，包含数百万的图像和数百个对象类。在ILSVRC 2014中，大规模的视觉识别挑战，几乎所有排名靠前的团队都使用CNN作为他们的基本框架。优胜者GoogLeNet （DeepDream的基础）将目标检测的平均精度提高到了0.439329，分类错误降低到了0.06656，这是迄今为止最好的结果。其网络应用了30多个层次。在ImageNet测试中，卷积神经网络的性能与人类接近。[54]最好的算法仍然与小或薄的物体纠缠在一起，比如花的茎上有一只小蚂蚁或手里拿着一根羽毛笔的人。他们也有使用滤镜变形的图像的麻烦，这是现代数码相机日益普遍的现象。相比之下，这些图像很少麻烦人类。然而，人类往往会遇到其他问题。例如，它们不擅于将物体分类为细粒度类别，例如特定品种的狗或鸟种，而卷积神经网络则处理这种情况。

2015年，CNN的多层次展现了从广泛的角度发现脸部的能力，包括颠倒，即使部分被竞争性表演遮挡。该网络训练了20万张图像的数据库，其中包括各种角度和方向的脸部以及另外2000万张没有脸部的图像。他们在50,000次迭代中使用了128个图像的批次。

视频分析与图像数据域相比，将CNN应用于视频分类的工作相对较少。视频比图像更复杂，因为它具有另一个（时间）维度。然而，CNN在视频领域的一些扩展已经被探索。一种方法是将空间和时间视为输入的等效维度，并在时间和空间上执行卷积。另一种方法是融合两个卷积神经网络的特征，一个用于空间，另一个用于时间流。基于卷积门限制玻尔兹曼机和独立子空间分析，介绍了用于训练时空特征的无监督学习方案。

自然语言处理CNN也探索了自然语言处理。 CNN模型对于各种NLP问题是有效的，并且在语义分析，搜索查询检索，句子建模，分类预测以及其他传统的NLP任务中取得了优异的结果。

本词条内容贡献者为:

王慧维 - 副研究员 - 西南大学