版权归原作者所有,如有侵权,请联系我们

[科普中国]-图像理解

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

简介

图像理解是研究用计算机系统解释图像,实现类似人类视觉系统理解外部世界的一门科学,所讨论的问题是为了完成某一任务需要从图像中获取哪些信息,以及如何利用这些信息获得必要的解释,图像理解的研究涉及和包含了研究获取图像的方法、装置和具体的应用实现。对图像理解的研究始于20世纪60年代初,研究初期以计算机视觉巧为载体,计算机视觉机器视觉简单的说就是研究用计算机来模拟人类视觉或灵长类动物视觉的一门科学,由图像数据来产生视野环境内有用符号描述的过程,主要研究内容包括图像的获取、图像处理、图像分析、图像识别,图像包括静态图像和动态图像视频,包括二维图像和立体图像计算机视觉的输入是数据,输出也是数据,是结构化或半结构化数据和符号。识别是传统计算机视觉的目的,即要得到图像中有什么这一结论。
自1965年Roberts识别多面体以来,图像理解已经应用在不少的领域:Nagao等人第一次建立了解释多波段航片的系统,对航拍图像区域进行了若干特征体的划分;SCORPIUS组合利用并行处理和图像理解研究结果检测、鉴别有意义的目标,监视军事目标状态变化,提供军事动向资料和情报;ACRONYM是一个由模型出发的解释系统,通过模型化区域的三维信息结构完成模型的匹配理解过程;MOSAIC融合多视角目标获取的二维图像完成目标三维的完整描述,对新的观察点情况进行理解分析。
图像理解与人工智能密切相关,人工智能简单的说就是研究用计算机模拟人脑、模拟人类智能的一门科学,传统的人工智能以人类的知识为对象,研究知识的表示、存储、推理,以及获得新的知识。传统的人工智能是在己有知识系统的基础上对知识结构关系,语义网络,通用匹配,推断决策,产生式系统,问题求解,规划控制反馈和经验学习的研究。

随着计算机视觉和人工智能学科的发展,相关研究内容不断拓展、相互覆盖,图像理解既是对计算机视觉研究的延伸和拓展,又是人类智能的研究新领域,渗透着人工智能的研究进程,近年来已在工业视觉、人机交互、视觉导航、虚拟现实、特定图像分析解释以及生物视觉研究等领域得到了广泛应用。总之,图像理解的内容相当丰富,涉及面也很宽,是一门新兴的综合学科。1

图像理解的层次结构从计算机信息处理的角度来看,认为一个完整的图像理解系统可以分为以下的四个层次:数据层、描述层、认知层和应用层(注:此分层方法类似于Selfridge(谢夫里奇)于1959年提出的小妖模型(Pandemonium Model)。二者的不同在于Selfridge的小妖模型是从认知的角度提出的一个模式识别的计算机模型,而本文是从信息处理的角度提出的一个图像理解系统分层框架;其次二者每层的任务也是不一样的)。各层的功能如下:

数据层:获取图像数据,这里的图像可以是二值图、灰度图、彩色的和深度图等,本文主要针对摄像头采集到的彩色照片/灰度图。主要涉及到图像的压缩和传输。数字图像的基本操作如:平滑、滤波等一些去噪操作亦可归入该层。该层的主要操作对象是象素。

描述层:提取特征,度量特征之间的相似性(即距离); 采用的技术有子空间方法(Subspace)如:ISA,ICA,PCA, 。该层的主要任务就是将象素表示符号化(形式化)。

认知层:图像理解,即学习和推理(Learning and Inference);该层是图像理解系统的“发动机”。该层非常复杂,涉及面很广,正确的认知(理解)必需有强大的知识库作为支撑。该层操作的主要对象是符号。具体的任务还包括数据库的建立。

应用层:根据任务需求(分类、识别、检测)(ps:如果是视频理解,还包括跟踪),设计相应的分类器、学习算法等。2

图像理解的分析过程图像理解是一门交叉学科,作为图像理解的低层数据的是视觉信息,理论出发点是计算机视觉,作为图像理解的高层数据是知识信息,理论依据出发点是人工智能。从研究的广泛性看,图像理解的处理信息分为视觉数据信息和人类知识信息两部分,前者侧重原始获取的数据信息以何种结构存储在计算机中,后者侧重知识的表述如何指导计算机的理解过程,两部分表示相辅相成。图像理解中对视觉信息和知识信息的研究过程就是进行信息表示、处理和分析的过程,具体表现为“表示与存储今认知与学习今推理与理解”的图像理解分析过程。

图像理解中包含了一泛的信息流,从视觉硬件采集设备获取到的二维阵列仅是信号描述,进行取样采集形成面向计算机的数据信息,形成像素点集,完成了场景图像的获取再通过图像处理技术在原始像素的基础上提取出视觉特征并存储入计算机,实现了“视觉信息的表示一与存储”接着根据已有的先验知识或导师指导,基于学习算法和相应理论进行机器学习,进行图像理解中的日标识别、场景分类等了任务,形成知识并存入计算机,实现知识信息的“表示与存储”,完成“认知一与学习”最后对已形成的知识进行“推理一与分析”完成最终的图像理解任务,体现计算机的视觉智能性。2

应用1.图象传输在电视电话、电视会议等需要传输图象的应用中,需尽可能的压缩图象数据,在基于理解基础上的压缩可以大大减少需传输的图象数据。如用分形图象压缩的方法只需要很少的几组数据和相关的迭代算法来恢复整个图象。例如1992年微软公司推出的一张名为“Microsoft Encarta”的光盘,是一张多媒体百科全书,广泛收集了文章、动画、声音、插图、照片、地图册和一本字典,内有几百幅彩色地图(可以被局部放大),几千张优质彩色照片。这么多内容,全部用分形图象压缩法压缩为不足600MB的数据。3

2.图象信息安全传输通常解决信息传输安全的方法是对传输的信息进行加密,然而还是存在被解密的可能。现在一种安全传输图象的方法是对传输图象进行伪装:在一幅普通的图象中隐藏一幅需要安全传输的图象。这幅普通图象成为一个伪装载体,它的显示人眼无法察觉,这就减少了被解密的可能性。3

3.宇宙探测太空技术的发展,需要对大量的星际照片进行分析和理解,用以不断开拓新的宇宙空间。3

4.遥感对航空遥感和卫星遥感图片的分析和理解,可用于对地质、矿产、森林、水利、海洋、农业等资源的调查和研究,进行自然灾害的预测和预报、环境的污染监测、气象分析,以及军事目标的识别。3

5.生物医学领域首先应用于细胞的分类、染色体分类和放射图象的分析中。例1972年X射线断层扫描(CT)的实现;1977年白血球自动分类仪的问世;1980年实现了CT的立体重现等。进入90年代其在生物医学领域的应用更加广泛,如从CT图象中识别各种器官,从CT图象检测癌细胞。3

6.工业生产主要对产品检查和生产的自动控制,如CAD、CAM等。3

7.军事军事、公安等国家安全部门军事目标的侦察、制导和警戒系统、防御系统及其反伪装。例如应用神经网络的图象分析和理解方法对雷达图片进行实时分析,以搜寻军事目标。公安部门对现场照片、指纹、手迹、印章、人像等的分析和识别。3

8.交通具有图象理解的实时车辆跟踪系统不仅可应用到交通管理,还可以为安全部门使用;如在交通节点(如十字路口)的车流量监测和高速公路上车辆的管理系统,可以实时提供车流量和车速。同样,也可以应用到火车和轮船的管理中去。4

9.字符识别用于历史文字和图片档案的修复和管理以及文字的自动识别。如清华大学研制的光学字符识别(OCR)系统能自动识别由扫描仪录入的文档。特别是,手写体识别技术更具有广泛的用途,联机识别还可以代替键盘输入提高输入速度。例如一种在线手写体识别的数学编辑器,极大地方便了数学中一些特定格式地输入。脱机手写体字符识别系统可以用在判别签名的真伪等方面。3

10.邮电对信件、包裹等通过自动识别其邮编、地址等信息来进行自动分检和归类。3

11.机器人视觉机器人视觉系统是一个复杂的系统,它不仅涉及到图象分析和理解技术,而且还涉及到传感器技术、电视技术、数字图象处理技术等。

下面列举了几种通用的商业视觉系统:(1)VS-100机器人视觉系统是美国UNIMATION公司生产的PUMA机器人,由MACHINEINTELLIGENCE CORPORATION生产的VS-100组成。(2)OMS视觉系统是由原联邦德国制造生产的商业通用视觉系统。它能够完成物体的识别及特征量的量测等任务。(3)由日本川崎重工业公司制造PUMA-26机械手CREATIVE SYSTEM公司制造的BLOB-1视觉系统组成的视觉演示系统.

由于图象分析和理解在许多领域的广泛应用和潜在领域应用的前景,吸引了许多科技人员投入到这方面的研究,从而促进了图象分析和理解的发展。3

数字图像处理技术概述及发展20世纪20年代,图像处理首次应用于改善伦敦和纽约之间海底电缆发送的图片质量。到20世纪50年代,数字计算机发展到一定的水平后,数字图像处理才真正引起人们的兴趣。1964年美国喷气推进实验室用计算机对“徘徊者七号”太空船发回的大批月球照片进行处理,收到明显的效果。20世纪60年代末,数字图像处理具备了比较完整的体系,形成了一门新兴的学科。20世纪70年代,数字图像处理技术得到迅猛的发展。理论和方法进一步完善,应用范围更加广泛。在这一时期,图像处理主要和模式识别及图像理解系统的研究相联系,如文字识别、医学图像处理、遥感图像的处理等。20世纪70年代后期到现在,各个应用领域对数字图像处理提出越来越高的要求.促进了这门学科向更高级的方向发展。特别是在景物理解和计算机视觉(即机器视觉)方面,图像处理已由二维处理发展到三维理解或解释。近年来,随着计算机和其它各有关领域的迅速发展,例如在图像表现、科学计算可视化、多媒体计算技术等方面的发展,数字图像处理已从一个专门的研究领域变成了科学研究和人机界面中的一种普遍应用的工具。它也促进了图像处理技术的教学。数字图像处理常用方法包括:图像变换、图像编码压缩、图像增强和复原、图像分割、图像描述、图像分类(识别)。

计算机的特点是能处理各种数据,图像经过采样、量化后变为数字存储在计算机中,使用计算机对数字图像进行去噪、增强、复原、分割、特征提取等处理,就称为数字图像处理。数字图像处理既涉及到计算机软件,也和硬件相关。计算机的发展、数学的发展以及各个行业的应用需求的增长与图像处理技术的发展密切相关。上个世纪60年代,计算机图像处理的技术发展迅速,应用也逐渐增多,人们使用计算机数字图像处理技术完成对图像的预期处理。

随着计算机周边技术的发展,现在的数字图像处理技术已具有了以下特点:

1) 图像处理的多样性。编写不同的算法及程序施加在数字图像上,得到的效果也截然不同。

2) 对图像处理的精度越来越高,图像的再现性也越来越好。计算机进行图像处理的本质是编写各种算法对图像数据施加各种运算。随着计算机技术的飞速发展,保障了计算的精度和正确性;此外,各种算法施加在同一图像上,得到的结果具有相似或相同性,使其具有良好的再现性。

3) 多学科技术的交叉和综合。数字图像处理的基础是数学和物理,此外,数字图像处理技术还与通信技术、计算机技术、电子技术、电视技术相关。

4) 数据处理量大。图像中有大量的信息,既有有用的信息,也有冗余信息,可以通过图像处理技术去除冗余得到图像中的有用的信息。4

图像处理技术在医学中的应用随着科学技术的进步,多学科交叉和融合成为现代科学发展和进步的突出特色和重要途径。医学影像技术作为医学研究和临床医学的重要手段,综合了计算机科学、生物医学、物理学等许多新技术的应用,成为近二十年医学技术中发展最快的领域之一。通过计算机图形图像处理技术辅助医学诊断与治疗,极大程度的提高了诊疗的质量与安全,已成为医学研究和临床医学的一个发展方向。目前,供医学研究和临床诊断所需要的医学图像多种多样,如:B超图像、MRI图像、CT图像、PET图像、SPECT图像、数字X光机(DR)图像、X射线图像、各种电子内窥镜图像、显微镜下病例切片和显微镜下细胞图像等。利用计算机技术处理这些图像,不仅可以提高医学临床诊断水平,还能为医学培训、医学研究与教学、计算机辅助临床外科手术等提供必要支持。

2.1 医学图像的种类

医学研究和临床诊断所需要的影像资料多种多样,既有静态的组织结构成像,也包括动态图像和功能成像。按照成像的手段不同可以将图像分为,光学图像、深度信息图像、温度场图像以及影像图像。利用不同的成像技术获得的医学影像能够揭示病人的不同特征,从医学应用的角度可以分为结构影像技术和功能影像技术两大类。前者主要用于获取人体组织器官的解剖结构图像,为医生诊断病变提供最直观的病理信息,X-CT,MRI就属于此类影像技术。另一种功能影像,是通过特殊图像信息来反映生理过程的变化,如组织的新陈代谢,细胞活动等,PET,红外成像,微波成像都属于这种,有些病变尤其是早期,在器官的外形结构上仍变现为正常时,采用基于SPECT的功能成像能够及时地诊断病变。

医学图像的研究目的是以直观的形式给医生提供辅助诊断和治疗的有用信息,如何提高图像的质量,从图像中提取更多的有用病理信息是医学图像处理技术的重点。但是,由于医学图像的成像对象是人体的组织器官,是个性化差异很大的对象,无论是人体个体的差异还是组织器官在病变过程中变化,都是我们无法预知的,这导致了医学图像无法像普通图像处理那样给出统一的操作模型。而且,由于成像设备、获取条件、医生的经验和能力等因素的存在,使得对医学图像进行定量评估非常困难。因此,普通的图像处理技术是不能直接应用在医学图像处理和分析上的。5

2.2 图像处理技术在超声医学成像中的应用

超声成像过程中图像处理的方法有很多,其中主要的有图像平滑处理、图像伪色彩处理、图像纹理分析、图像分割、图像锐化处理,以及图像增强处理等图像处理方法。在B超图像中,不可避免会出现噪声,噪声的存在对某一象素或某幅图像是有影响的,因此要平滑图像,去除噪声,为图像的后续处理做准备。为了使B超医生更好的识别B超图像信息,可以用不同的颜色来表示图像中的不同灰度级,达到图像增强的效果,可识别灰度差较小的像素,这种用彩色差别代替灰度差别而组成的图像,即为伪色彩图像。B超图像中存在颗粒状纹理,其主要有以下两种情况引起的,一种是B超图像本身的斑纹,是无用的信息,另一种是由被检查者的组织结构引起的,是有用的信息。正常和有病变的器官图像组织颗粒分布不同,即纹理也不同,因此,对B超图像进行纹理分析,从而判别病情。图像分割是将病变区域分割出来,以便测量其大小,体积等,为诊断提供必要数据。除此之外,还要用到图像锐化处理和图像增强等计算机技术处理B超图像。5

2.3 图像处理技术在CT和MRI中的应用

CT的本质是一种借助于计算机进行成像和数据处理的断层图像技术。虽然X线透视可使人们了解人体的内部结构,但只有CT通过计算机在排除散射线和重叠影像的干扰并对X线人体组织吸收系统矩阵作定量分析后,才从根本上解决了分辨率问题。计算机在CT系统中要完成图像去噪、图像的增强、图像重建等任务。没有计算机技术,CT设备的发展是不可想象的。在磁共振中,图像处理技术包括图像去噪、图像增强、图像复原、图像三维重建等操作,磁共振成像也离不开计算机图像处理技术的支持。

现代医学越来越离不开医学图像信息的支持,在医学图像处理中,计算机技术起着至关重要的作用。在医学领域中,超声成像、CT、磁共振、外科手术、中医舌像诊断都与计算机图像处理技术息息相关。随着计算机技术和医学的发展,计算机图像处理技术会在医学领域中得到更广泛的应用,医学领域也更离开不计算机图像处理技术。5