[科普中国]-立体视觉- · 科普中国网

立体视觉是双眼观察景物能分辨物体远近形态的感觉。

立体视觉是计算机视觉领域的一个重要课题，它的目的在于重构场景的三维几何信息。立体视觉的研究具有重要的应用价值，其应用包括移动机器人的自主导航系统，航空及遥感测量，工业自动化系统等。

一、眼科类正常值假如被测试者的立体视功能正常，就能迅速而正确地找出这幅图案，以此确定其立体视敏度为多少秒，正常为100s，此检测的优点是不需戴非凡眼镜，能很快地查出被检者有无立体视觉。

临床意义异常结果：眼球震动，斜视，对眼，看东西歪头眯眼，没有立体感，眼手协调差。需要检查的人群：立体视觉缺失(立体盲)。

注意事项不合宜人群：没有特殊说明。检查前禁忌：发现这种现象，切忌拖延。检查时要求：注意定向方向。

检查过程通常可用：(1) 同视机检查：可检查双眼视功能，包括同时视、融像、立体视三级视功能。检查立体视觉时需用立体视画片。可根据同视机检查说明进行，得出结果后加以判定。(2) 立体视觉检查器：由三块厚薄不同的测验板组成，每块板印有四幅随意网络结构图案，其中一幅图案的中间是凸出来的(从另一面看是凹进去的)。

相关症状斜视性弱视，斜视

二、计算机研究方法一般而言，立体视觉的研究有如下三类方法:

(1) 直接利用测距器（如激光测距仪）获得程距（range data）信息，建立三维描述的方法;

(2) 仅利用一幅图象所提供的信息推断三维形状的方法;

(3) 利用不同视点上的，也许是不同时间拍摄的，两幅或更多幅图象提供的信息重构三维结构的方法。

第一类方法，也就是程距法 (range data method)，根据已知的深度图，用数值逼近的方法重建表面信息，根据模型建立场景中的物体描述，实现图象理解功能。这是一种主动方式的立体视觉方法，其深度图是由测距器(range finders)获得的，如结构光(structured light)、激光测距器(laser range finders) 等其他主动传感技术 (active sensing techniques)。这类方法适用于严格控制下的环境(tightlycontrolled domains)，如工业自动化的应用方面。

第二类方法，依据光学成象的透视原理及统计假设，根据场景中灰度变化导出物体轮廓及表面，由影到形(shape from shading)，从而推断场景中的物体。线条图的理解就是这样的一个典型问题，曾经引起了普遍的重视而成为计算机视觉研究领域的一个焦点，由此产生了各种各样的线条标注法。这种方法的结果是定性的，不能确定位置等定量信息，该方法由于受到单一图象所能提供信息的局限性，存在难以克服的困难。

第三类方法，利用多幅图象来恢复三维信息的方法，它是被动方式的。根据图象获取方式的区别又可以划分成普通立体视觉和通常所称的光流(optical flow)两大类。普通立体视觉研究的是由两摄像机同时拍摄下的两幅图象，而光流法中研究的是单个摄像机沿任一轨道运动时顺序拍下的两幅或更多幅图象。前者可以看作后者的一个特例，它们具有相同的几何构形，研究方法具有共同点。双目立体视觉是它的一个特例。

组成部分立体视觉的研究由如下几部分组成:

(1) 图象获取 (image acquisition),

用作立体视觉研究的图象的获取方法是多种多样的，在时间、视点、方向上有很大的变动范围，直接受所应用领域的影响。立体视觉的研究主要集中在三个应用领域中，即自动测绘中的航空图片的解释，自主车的导引及避障，人类立体视觉的功能模拟。不同的应用领域涉及不同类的景物，就场景特征的区别来分，可以划分成两大类，一类是含有文明特征(cultural features)的景物，如建筑、道路等; 另一类是含有自然特征的景物和表面(natural objects and surfaces)，如山、水、平原及树木等。不同类的景物的图象处理方法大不相同，各有其特殊性。

总之，与图象获取相关的主要因素可归纳如下:

(a) 场景领域 (scene domain)，

(b) 计时 (timing)，

(d) 成像形态（包括特殊的遮盖）(photometry (including special coverage)),

(e) 分辨率 (resolution),

(f) 视野 (FIELD OF VIEW),

(g) 摄像机的相对位置 (relative camera positioning).

场景的复杂程度受如下因素的影响:

(a) 遮掩 (occlusion),

(b) 人工物体（直的边界,平的表面) (man-made objects (straight edge, flat surfaces)),

(d) 含有重复结构的区域 (areas containing repetitive structure)。

(2) 摄像机模型 (camera modeling),

摄像机模型就是对立体摄像机组的重要的几何与物理特征的表示形式，它作为一个计算模型，根据对应点的视差信息，用于计算对应点所代表的空间点的位置。摄像机模型除了提供图象上对应点空间与实际场景空间之间的映射关系外，还可以用于约束寻找对应点时的搜索空间，从而降低匹配算法的复杂性，减小误匹配率。

(3) 特征抽取 (feature acquisition),

几乎是同一灰度的没有特征的区域是难以找到可靠匹配的，因而，绝大部分计算机视觉中的工作都包括某种形式的特征抽取过程，而且特征抽取的具体形式与匹配策略紧密相关。在立体视觉的研究中，特征抽取过程就是提取匹配基元的过程。

(4) 图象匹配 (image matching),

图象匹配是立体视觉系统的核心，是建立图象间的对应从而计算视差的过程，是极为重要的。

(5) 深度计算 (distance(depth) determination),

立体视觉的关键在于图象匹配，一旦精确的对应点建立起来，距离的计算相对而言只是一个简单的三角计算而已。然而，深度计算过程也遇到了显著的困难，尤其是当对应点具有某种程度的非精确性或不可靠性时。粗略地说，距离计算的误差与匹配的偏差成正比，而与摄像机组的基线长成反比。加大基线长可以减少误差，但是这又增大了视差范围和待匹配特征间的差别，从而使匹配问题复杂化了。为了解决这一问题出现了各种匹配策略，如由粗到精策略，松驰法等。

在很多情况下，匹配精度通常是一个象素。但是，实际上区域相关法和特征匹配法都可以获得更好的精度。区域相关法要达到半个象素的精度需要对相关面进行内插。尽管有些特征抽取方法可以得到比一个象素精度更好的特征，但这直接依赖于所使用的算子类型，不存在普遍可用的方法。

另一种提高精度的方法是采用一个象素精度的算法，但是利用多幅图象的匹配，通过多组匹配的统计平均结果获得较高精度的估计。每组匹配结果对于最后深度估计的贡献可以根据该匹配结果的可靠性或精度加权处理。

总之，提高深度计算精度的途径有三条，各自涉及了一些附加的计算量:

(a) 半象素精度估计 (subpixel estimation),

(b) 加长基线长 (increased stereo baseline),

(6) 内插 (interpolation).

在立体视觉的应用领域中，一般都需要一个稠密的深度图。基于特征匹配的算法得到的仅是一个稀疏而且分布并不均匀的深度图。在这种意义下，基于区域相关匹配的算法更适合于获得稠密的深度图，但是该方法在那些几乎没有信息（灰度均匀）的区域上的匹配往往不可靠。因此，两类方法都离不开某种意义的内插过程。最为直接的将稀疏深度图内插成稠密的深度图的方法是将稀疏深度图看作为连续深度图的一个采样，用一般的内插方法（如样条逼近）来近似该连续深度图。当稀疏深度图足以反映深度的重要变化时，该方法可能是合适的。如起伏地貌的航空立体照片的处理中用这种方式的内插也许是比较合适的。但是这种方法在许多应用领域中，尤其是在有遮掩边界的图象的领域中，就不适用了。

Grimson 指出可匹配特征的遗漏程度反映了待内插表面变化程度的相应限度，在这种基础上，他提出了一个内插过程[2]。换一角度来看，根据单幅图象的“由影到形”的技术，用已经匹配上的特征来建立轮廓条件和光滑的交接表面可以确保内插的有效性。这些方法结合起来，可以使内插过程达到合乎要求的目标。内插的另一种途径是在已有的几何模型与稀疏深度图之间建立映射关系，这是模型匹配过程。一般而言，要进行模型匹配，预先应将稀疏深度图进行聚类，形成若干子集，各自相应于一种特殊结构。然后找每一类的最佳对应模型，该模型为这种特殊结构(物体)提供参数和内插函数。如 Gennery用这种方法来发现立体对图片中的椭园结构，Moravec 用于为自主车探测地面。

本词条内容贡献者为:

李骏 - 副主任医师 - 北京大学第一医院眼科