[科普中国]-对象检测- · 科普中国网

简介

在计算机视觉研究领域，对象检测一般可以分为图形对象检测和视频对象检测，利用图像处理与模式识别等领域的理论和方法，从图像或视频中分离出有一定意义的实体——对象，如人、物体等。在对象检测中有一类通用的对象检测方法，似物性度量(Objectness measure)，利用矩形框将图像中所有可能存在的对象区域定位出来并给出这个窗口内包含对象的概率。例如，通过贝叶斯框架将多种图像信息进行融合，定量地计算出每个窗口包含对象的概率1。

图像目标类别检测技术图像目标类别检测技术，又称类别级目标检测（category-level object detection）或目标检测（object detection），旨在利用图像处理与模式识别等领域的理论和方法，检测出图像中存在的目标对象，确定这些目标对象的语义类别，并标定出目标对象在图像中的位置。目标对象的位置一般使用边界框进行标定。根据目标对象的可形变能力，目标可以分为两类：（1）结构类，例如瓶子、建筑、人体、马等，它们具有接近的形状和大小。（2）非结构类，例如天空、草地、云朵等，这类对象没有固定的形状和大小。

对象分类图像目标类别检测是目标分类的一个子问题。目标分类可以分为3个层级：

（1）图像级，即确定图像中是否有相关的目标对象，如图像分类[、图像注释技术。

（2）区域级，即确定图像中某个区域含有某类目标，即本文所述的图像目标类别检测。

（3）像素级，即确定图像中各像素归属于哪类目标对象。像素级分割也分为类别级目标分割和语义分割两类。类别级目标分割与语义分割的主要区别是，语义分割要求将图像中的所有目标包括背景都分割出来并确定其类别，而目标分割仅需要分割感兴趣的目标并分类。

目标类别检测不仅对现实场景中目标类别识别起决定性作用，而且也是众多高层的视觉处理和分析任务的重要预处理步骤，例如活动检测、事件检测、全场景内容理解等。此外，目标类别检测是大量现实应用的支持技术，例如智能视频监控、机器人导航、基于内容的图像检索、基于图像的绘制技术、图像编辑和增强现实技术。目标类别检测在计算机视觉和现实应用中的重要意义，促使大量研究者对该项技术进行研究。

步骤目标类别检测主要分为以下 3个步骤：

（1）列举出图像中所有可能的区域。

（2）决定各个区域是否含有预先设定的目标类别。

（3）整体上评估各个区域的反映，得到最终的检测结果。

目标类别检测的关键步骤就是在给定区域R，如何确R中是否有与预先定义的类别相关的目标对象。不同类别的特征模型则通常在人工标记的数据上进行训练获得。因此，对区域R的归类事实上就是一个有监督分类的过程。

对象定位策略定位策略是指在目标区域中搜寻与学习到的目标外观模型匹配的区域的一种策略。也就是说，通过训练所得的外观模型为c，搜寻的区域R，定位的过程即是搜寻匹配得分S (c , R) 的局部最大值或全局最大值的过程。目前较为常见的方法有滑动窗口、投票机制、通过分割进行定位 3类。

滑动窗口模型主要是在输入图像中寻找所有可能包含目标对象的子窗口，通过子窗口与训练得到外观模型进行匹配，从而得到该子窗口定位区域的类别。典型的子窗口搜索策略证明了这种定位策略的有效性，但是这类算法有两个重要的问题有待解决：首先，计算子窗口的效率较低；其次，获得的子窗口中包含有其他目标对象或者背景信息对匹配的影响，因此获得子窗口的准确度有待提高。根据人类视觉系统的特征，人类在识别一个物体之前总是预先确定这个物体的位置，因此类物体区域采样（object proposal）受到研究者广泛关注。类物体区域采样主要根据目标对象往往具有明确的边界，与其周围的区域具有一定的外观差别，并且往往属于图像中的显著区域这些特征，不区分类别地对可能存在目标对象的位置进行估计，也就是对传统的滑动窗口进行排序，获得较有可能是目标区域的窗口，为下一步的分类与识别奠定基础。类物体区域采样的主要研究目标是能够获得高的检测率、尽可能少的采样数、较高的效率和对不同类目标的普适性。

投票机制不同于滑动窗口模型，这类模型主要设计用于基于部分的外观模型。基于部分的外观模型主要包含两个部分，即一组局部区域和它们之间的拓扑关系。S (c , R) 则等于这些区域的匹配得分和拓扑结构的匹配得分的总和。一般情况下投票机制可总结为以下两步：首先，在输入图像中获得与外观模型中各个局部区域的最佳匹配区域，最大化这些局部区域的匹配得分；然后，采用拓扑评价方法获得最佳的拓扑匹配。因此投票机制事实上是一个贪心算法2。

通过分割进行定位建立在图像成功的自动分割基础上，成功的图像分割本身就是完美的定位。但是目前图像分割是一件十分耗时、非常复杂的过程，而且很难将单个目标对象完整地分割出来。目前主要的处理方法是在过分割的基础上，构建概率图模型，进行其他复杂的分类操作。