版权归原作者所有,如有侵权,请联系我们

[科普中国]-立体图像处理

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

立体图像简述

人的大脑可以处理左右两眼观察到的外部三维(3D)世界的两幅图像之间的细微的差别,这种能力就叫做立体视觉。立体图像对就是在同一场景下左右两只眼睛分别看到的图像。物体在这两幅图像中的相对位置差称为立体视差(disparity),我们的大脑能测量这种立体视差,经过大脑视神经的融合,从而产生深度感觉。目前的立体成像系统多是通过为人类的双目视觉系统提供体图像对(stereo image pairs)来实现的。1

人类从各种各样的线索中获取三维信息,其中最重要的两种是双目视差(binocular paraⅡaX)和运动视差(motion paranaX)。双目视差始于Charles Whea_tstone1838年的研究工作,指的是双眼看到同一物体的不同映像;运动视差始于Helmholtz 1866年的研究工作2,指的是头部运动时看到同一物体的不同映像。1833年,Wheatstone用世界上第一台三维显示装置科学地验证了视差和立体感之间的联系。从此,研究者们就不断地致力于开发新的立体图像技术。所谓的“视差创造立体”的原理,是指人的两只眼睛从不同的角度观看世界,即左眼看到的物体与右眼看到的同一物体之间有细微的差别,两眼之间平均相距约6.5cm,因而描述场景轮廓的方式也不尽相同。大脑根据这两个有细微差别的场景进行综合处理,产生精确的三维物体,并在场景中对该物体进行定位,这就是具有深度的立体感。

立体图像获取这里介绍三种常见的获取立体图像的方法:用立体摄像机对拍摄立体图像、用深度摄像机拍摄立体图像以及通过平面图像生成立体图像。

立体摄像机对使用立体摄像机对,分别拍摄独立的左、右视图以模拟人类双眼感知立体图像的方式。立体摄像机对包括平行配置和会聚配置两种结构。当平行配置立体摄像机对时:两部摄像机模拟人的双眼,在水平方向分隔一定的距离,这两部摄像机的变焦、会聚、及视频记录都严格地同步,并对所获取的两路视频信号以某种方式进行记录。

一个摄像机对可获得一个立体图像对,其产生双视点的立体图像。如果将多个摄像机对在同一平面内线性排列,则可产生同处一个平面的多个视点。如果将多个摄像机在空间内以某种特定阵列方式排列,则可产生空间上的多视点。3

深度摄像机使用深度摄像机,拍摄具有深度映射图的二维视图是一种快速的获取立体图像素材的方法。其将一个红外线激光雷达系统的扫描器集成在传统二维摄像机中,该扫描器产生一面光墙(light wall),通过物体对光的反射,产生物体的印记,以记录反映物体的深度信息。由这些来自该印记的物体深度信息,可重建出物体的深度映射图。该深度图实际上是一个二维函数,它以一个与图像相关的函数形式,给出了相对于摄像机位置的二维视图上点的深度。3

平面图像生成随着计算机图形(CG)技术的发展,可通过一定算法对现有的二维视频节目进行计算,得出深度信息,将其转化为三维图像节目。将现有的是二维视频节目转化为立体节目,是对立体节目制作的一个有益补充。但该类立体成像系统设备复杂,要求严格。

当一个摄像机相对静止物体平行运动,或者围绕静止物体运动时,可以从拍摄所得的平面图像中,得到物体的立体深度信息;另一种情况,当摄像机静止不动,而物体相对于摄像机作简单线性运动时,也可以根据拍摄所得的平面图像,获得物体的立体深度信息。文献4给出了一种可行的平面二维图像转换为立体图像的方法。该方法对于符合一定条件的运动情况,可以从时间连续拍摄所得的平面图像之间,获得立体深度信息,同时利用人的立体心理深度暗示,最终实现由平面二维图像计算生成立体图像。但是,现实拍摄的物体,运动往往十分复杂,若使用此方式提取立体深度信息,可能带来较大复杂度。3

立体图像处理压缩编码技术随着立体图像应用需求的日益增加,建立立体图像的压缩标准也提到了日程上来。去除立体图像对的冗余的最有效的方法,也是用得最多的方法是选择一幅图像为参考图像,右图独立编码,然后估计两幅图像之间的视差矢量场以去除立体图像对之间的冗余,第一个提出这个视差估计/补偿方法的是Lukacs。Yamaguchi[后来又提出了对视差估计/补偿得到的误差帧进行编码,并传输以得到更好的图像质量。Dinstein等人提出,根据视差补偿的精确度确定左图的每个图像块是用视差补偿的方式编码还是独立编码的方法。

现有的立体图像编码技术,采用的策略大多是在现代的二维图像编码技术的基础上采用视差(disparity)估计/补偿的思想来去除立体图像对之间的冗余,以达到高压缩比的目的。在静态图像压缩标准JPEG的基础上,利用立体图像对之间的交叉视觉冗余,进行压缩编码。1

图像分割技术图像分割技术在图像工程中占据着重要地位,它是计算机视觉和图像理解的最基本问题。其分割结果关键性的决定了图像处理系统高层模块的性能,如分析、理解和辨识等。立体图像中的视差矢量与实际场景中物体的深度有着一一对应的关系,基于立体视差的图像分割方法的想法是利用前景物体与背景深度的不同来得到标识待分割物体的大概位置及形状的二值掩模,并通过和边缘检测得到的边缘图像相与得到粗略的边缘,最后通过数学形态学的方法细化以得到精确的边缘分割。

具体流程图如下所示:

所谓的分割就是按照一定的准则把图像划分成若干互不交叠区域,被分割的区域满足同质性和唯一性,其中,同质性是指分割区域中的所有像素点应具有某种相同特性,如灰度、纹理[、彩色和运动等特征:唯一性指分割的区域的特性是唯一的,与相邻的其他分割区域存在明显差异。不论是静态图像的分割还是运动图像的分割,不论是基于边缘的分割还是基于纹理的分割。研究者已经研究了或正在研究着各种各样的算法。可以大致分为以下几类:

基于像素分类的分割:在特征空间里,定义一个分类函数,通过函数隶属关系,将像素映射到不同的类别的集合,所分割的图像是由一组特定的像素点组成的。主要有阈值法和聚类法等。

基于边缘检测的分割:基本思想是先检测图像中的边缘点,再按照一定的策略连接成轮廓,从而构成分割区域。

基于区域的分割:直接以在图像空间区域中所划分的区域满足同质性为准则来提取若干特征相近或相同的像素点组成区域。主要方法有区域生长法、分裂合并法、水线法和基于图论的分割方法。

基于运动的分割:运动图像序列为目标分割提供了比静止图像更多的有用信息,运动目标分割中常用到光流场和运动估计等.1

立体图像传输随着因特网和无线移动通信的快速发展,图像、视频等多媒体通信得到日益广泛的应用。但是在因特网和无线移动信道等环境下的压缩图像、视频的传输业务质量会受到信道传输差错的严重影响,甚至整个图像、视频的通信完全瘫痪,对于立体图像的传输也面临同样的问题,因此必须提出一个保证图像、视频可靠性传输的机制。为了保证在因特网和无线移动通信等信道中的图像、视频传输业务质量,差错复原技术就成为易发生差错信道下的图像、视频编码的必不可少的一部分。

为了减少或消除信道差错的影响,必须采用适当的技术来对抗信道差错,这样,差错复原技术就成为易发生差错信道下视频压缩编码的重要内容之一。现有的或正在制定的视频压缩编码标准,如H.263+和MPEG一4等为了提高差错复原能力和满足易发生差错信道下视频传输业务的要求,均采用了若干差错复原技术,并成为标准的重要内容。

差错复原技术(error resilience)是指在编码器端通过改进传输码流的结构,使其利于解码器检测差错和恢复丢失的或差错的数据;在解码器端则利用图像的空间及时间相关性来消除或降低信道差错是图像质量的影响。1