简介
图像是人对视觉感知的物质再现。图像可以由光学设备获取,如照相机、镜子、望远镜及显微镜等;也可以人为创作,如手工绘画。图像可以记录、保存在纸质媒介、胶片等等对光信号敏感的介质上。随着数字采集技术和信号处理理论的发展,越来越多的图像以数字形式存储。图像对象检测是利用图像处理与模式识别等领域的理论和方法,检测出图像中存在的目标对象,确定这些目标对象的语义类别,并标定出目标对象在图像中的位置。
图像检测方法主要分为六个步骤:预处理、窗口滑动、特征提取、特征选择、特征分类和后处理。首先,预处理对待检测图像进行图像去噪、图像增强、色彩空间转换等操作。其次,在待检测图像中滑动一个固定大小的窗口,将窗口中的子图像作为候选区。然后,利用特定的算法对候选区进行特征提取。其次,从特征向量中挑选具有代表性的特征,降低特征的维数。然后,利用特定的分类器对特征进行分类,判定候选区是否包含了目标及其类别。最后,合并判定为同一类别的相交候选区,计算出每个目标的边界框,完成目标检测。
图像对象分类图像目标类别检测是目标分类的一个子问题。目标分类可以分为3个层级:
(1) 图像级,即确定图像中是否有相关的目标对象,如图像分类[、图像注释技术。
(2)区域级,即确定图像中某个区域含有某类目标,即本文所述的图像目标类别检测。
(3)像素级,即确定图像中各像素归属于哪类目标对象。像素级分割也分为类别级目标分割和语义分割两类。类别级目标分割与语义分割的主要区别是,语义分割要求将图像中的所有目标包括背景都分割出来并确定其类别,而目标分割仅需要分割感兴趣的目标并分类。
外观模型与分类器目标类别检测的输入是一幅图像,可以通过特征提取算法对图像的底层特征进行描述。而目标类别检测输出则是一组目标对象的位置标定以及它们所属的高层语义概念。因此,目标类别检测提供了图像从低层特征到高层语义的映射, 其中存在着语义鸿沟问题, 外观模型起到了图像低层特征与语义之间的桥梁作用。外观建模是指对不同类别目标对象的描述,以及从描述中提取外观模型, 即建立各个类别的通用描述的一个过程。这个过程中,机器学习是必不可少的。根据目标对象的可形变能力,目标可以分为两类:
(1)结构类,例如瓶子、建筑、人体、马等,它们具有接近的形状和大小。
(2)非结构类,例如天空、草地、云朵等,这类对象没有固定的形状和大小。
尽管两类目标对象在几何特性上有较大差异,但是在使用的低层、中层特征描述方法上大部分相同。为了解决对这两类不同的目标对象的类别检测,研究者分别使用了结构模型和非结构模型对这两类对象进行表示。结构模型主要用于对结构目标的描述, 常用的结构模型包括基于窗口的模型、 基于部分的模型以及混合模型。
基于窗口的模型的基本思想是围绕着目标对象的区域,即窗口内的视觉特征通过特征描述子进行描述。这里的窗口通常是矩形或者多边形。基于窗口的描述方法主要分为3步:首先预先确定窗口的形状;然后选择合适的特征和特征描述子;最后联合多种特征描述子对给定的窗口进行描述,得到基于窗口的特征描述子。最常用的窗口形状是矩形,研究者在此方面做了大量工作,但是矩形窗口无法很好地确定目标的边界,因此研究者也在多边形窗口方面展开研究,但是多边形窗口会增加计算的负担。此外,在对目标的形状无预先知识的情况下, 如何适应性地确定窗口的边界,研究者还提出了形状自由窗口来解决这一问题。
基于部分的模型主要由两部分组成,一组小的部分和它们之间的拓扑关系。这里的部分通常选取目标中具有代表性的区域, 如人体的头、 手臂,并通过他们的视觉特征对其进行描述,拓扑关系则主要描述这些部分的位置以及相连性的关系。研究者利用图形学方法对这些部分的拓扑关系进行表示。典型的部分间拓扑关系包括星型结构、 树型结构、k-fan模型、 全连接丛模型、有向无环图模型,又包括层次模型 和稀疏弹性模型。
基于窗口的模型和基于部分的模型分别适用于不同的应用场景,例如树型结构模型适用于对不同姿态下目标的识别 而对于行人检测,目前适用的仍然是基于窗口的模型。因此,对于这两类模型的整合也成为一个重要的研究点,即混合模型。
非结构模型主要用于对非结构目标的描述。在对非结构目标的建模上, 主要有两种思路:(1)在像素的局部邻域内计算视觉特征。为了提高计算效率, 输入图像通常被分为规则的网格再进行计算。但是大小一致的邻域计算有可能跨越目标的边界, 导致得到的描述不准确,而且这种描述方法也只能对目标对象很小的区域进行描述, 对相邻的同类目标检测能力较差。
(2) 对过分割后的区域视觉信息进行描述。过分割是将图像分割为一组小的、贴近图像边缘的原子区域,即超像素, 随后对这些超像素区域进行描述和分类。非结构模型同样也可以用于结构目标的识别,研究者在结构与非结构模型的结合方面也做了大量工作。
监督分类方法在目标检测中的作用可以概括为两个方面:外观模型的参数由监督分类算法进行训练;通过分类器对测试图像或输入图像进行目标分类。为了训练出各个类别目标对象具有代表性的外观模型,各种形式的训练器都被研究者逐一尝试,常用的有支持向量机、K近邻、神经网络 随机森林等。但是由于外观模型的复杂性,需要对类内差距和类间差距进行有效区分,因此需要高维的特征描述和非常复杂的训练模型1。
显著对象检测显著对象检测是视觉注意机制中的一项关键技术,它是将图像中的显著对象快速而准确地定位并提取,进而进行优先处理与分析,为后续的图像分析提供指导和决策层的支持。目前,对于自然场景图像, 已有的显著对象检测方法可分为 3 类: 基于像素的、基于频域分析的和基于区域的方法。基于像素的方法主要以像素为单位计算不同特征的显著度图,在显著度图中定位显著对象,此类方法的特点是计算特征较容易提取、计算量较小、较为快速,但对于噪声较为敏感、鲁棒性较差;基于频域分析的方法主要是寻找不同特征在频域中的特点, 构建频域滤波器来定位显著对象,此类方法鲁棒性较好,但精确度不高,只能得到显著对象的大致位置形状。基于区域的方法主要利用分割将图像划分为不同的区域,然后通过区域竞争定位显著对象,此类方法基于心理学研究基础,是目前发展趋势,但由于对分割算法过度依赖不利于对象语义的完整性,并且计算量较大,鲁棒性有待提高2。
图像处理概述图像处理,是对图像进行分析、加工、和处理,使其满足视觉、心理以及其他要求的技术。图像处理是信号处理在图像域上的一个应用。目前大多数的图像是以数字形式存储,因而图像处理很多情况下指数字图像处理。此外,基于光学理论的处理方法依然占有重要的地位。图像处理是信号处理的子类,另外与计算机科学、人工智能等领域也有密切的关系。
常用方法1 )图像变换:由于图像阵列很大,直接在空间域中进行处理,涉及计算量很大。因此,往往采用各种图像变换的方法,如傅立叶变换、沃尔什变换、离散余弦变换等间接处理技术,将空间域的处理转换为变换域处理,不仅可减少计算量,而且可获得更有效的处理(如傅立叶变换可在频域中进行数字滤波处理)。目前新兴研究的小波变换在时域和频域中都具有良好的局部化特性,它在图像处理中也有着广泛而有效的应用。
2 )图像编码压缩:图像编码压缩技术可减少描述图像的数据量(即比特数),以便节省图像传输、处理时间和减少所占用的存储器容量。压缩可以在不失真的前提下获得,也可以在允许的失真条件下进行。编码是压缩技术中最重要的方法,它在图像处理技术中是发展最早且比较成熟的技术。
3 )图像增强和复原:图像增强和复原的目的是为了提高图像的质量,如去除噪声,提高图像的清晰度等。图像增强不考虑图像降质的原因,突出图像中所感兴趣的部分。如强化图像高频分量,可使图像中物体轮廓清晰,细节明显;如强化低频分量可减少图像中噪声影响。图像复原要求对图像降质的原因有一定的了解,一般讲应根据降质过程建立“降质模型”,再采用某种滤波方法,恢复或重建原来的图像。
4 )图像分割:图像分割是数字图像处理中的关键技术之一。图像分割是将图像中有意义的特征部分提取出来,其有意义的特征有图像中的边缘、区域等,这是进一步进行图像识别、分析和理解的基础。虽然目前已研究出不少边缘提取、区域分割的方法,但还没有一种普遍适用于各种图像的有效方法。因此,对图像分割的研究还在不断深入之中,是目前图像处理中研究的热点之一。
5 )图像描述:图像描述是图像识别和理解的必要前提。作为最简单的二值图像可采用其几何特性描述物体的特性,一般图像的描述方法采用二维形状描述,它有边界描述和区域描述两类方法。对于特殊的纹理图像可采用二维纹理特征描述。随着图像处理研究的深入发展,已经开始进行三维物体描述的研究,提出了体积描述、表面描述、广义圆柱体描述等方法。
6 )图像分类(识别):图像分类(识别)属于模式识别的范畴,其主要内容是图像经过某些预处理(增强、复原、压缩)后,进行图像分割和特征提取,从而进行判决分类。图像分类常采用经典的模式识别方法,有统计模式分类和句法(结构)模式分类,近年来新发展起来的模糊模式识别和人工神经网络模式分类在图像识别中也越来越受到重视。