[科普中国]-图像识别方法-

基本概念

图像识别，是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。一般工业使用中，采用工业相机拍摄图片，然后再利用软件根据图片灰阶差做进一步识别处理，图像识别软件国外代表的有康耐视等，国内代表的有图智能等。另外在地理学中指将遥感图像进行分类的技术。

图形刺激作用于感觉器官，人们辨认出它是经验过的某一图形的过程，也叫图像再认。在图像识别中，既要有当时进入感官的信息，也要有记忆中存储的信息。只有通过存储的信息与当前的信息进行比较的加工过程，才能实现对图像的再认。

图像识别是人工智能的一个重要领域。为了编制模拟人类图像识别活动的计算机程序，人们提出了不同的图像识别模型。例如模板匹配模型、原型匹配模型。

识别基础图像识别可能是以图像的主要特征为基础的。每个图像都有它的特征，如字母A有个尖，P有个圈、而Y的中心有个锐角等。对图像识别时眼动的研究表明，视线总是集中在图像的主要特征上，也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方，这些地方的信息量最大。而且眼睛的扫描路线也总是依次从一个特征转到另一个特征上。由此可见，在图像识别过程中，知觉机制必须排除输入的多余信息,抽出关键的信息。同时,在大脑里必定有一个负责整合信息的机制，它能把分阶段获得的信息整理成一个完整的知觉映象。

在人类图像识别系统中，对复杂图像的识别往往要通过不同层次的信息加工才能实现。对于熟悉的图形,由于掌握了它的主要特征，就会把它当作一个单元来识别，而不再注意它的细节了。这种由孤立的单元材料组成的整体单位叫做组块，每一个组块是同时被感知的。在文字材料的识别中，人们不仅可以把一个汉字的笔划或偏旁等单元组成一个组块，而且能把经常在一起出现的字或词组成组块单位来加以识别。

在计算机视觉识别系统中，图像内容通常用图像特征进行描述。事实上，基于计算机视觉的图像检索也可以分为类似文本搜索引擎的三个步骤：提取特征、建索引build以及查询。

图像识别模型图像识别是人工智能的一个重要领域。为了编制模拟人类图像识别活动的计算机程序，人们提出了不同的图像识别模型。

（1）模板匹配模型

这种模型认为，识别某个图像，必须在过去的经验中有这个图像的记忆模式，又叫模板。当前的刺激如果能与大脑中的模板相匹配，这个图像也就被识别了。例如有一个字母A，如果在脑中有个A模板，字母A的大小、方位、形状都与这个A模板完全一致，字母A就被识别了。这个模型简单明了，也容易得到实际应用。但这种模型强调图像必须与脑中的模板完全符合才能加以识别，而事实上人不仅能识别与脑中的模板完全一致的图像，也能识别与模板不完全一致的图像。例如，人们不仅能识别某一个具体的字母A，也能识别印刷体的、手写体的、方向不正、大小不同的各种字母A。同时，人能识别的图像是大量的，如果所识别的每一个图像在脑中都有一个相应的模板，也是不可能的。

（2）原型匹配模型

为了解决模板匹配模型存在的问题，格式塔心理学家又提出了一个原型匹配模型。这种模型认为，在长时记忆中存储的并不是所要识别的无数个模板，而是图像的某些“相似性”。从图像中抽象出来的“相似性”就可作为原型，拿它来检验所要识别的图像。如果能找到一个相似的原型，这个图像也就被识别了。这种模型从神经上和记忆探寻的过程上来看，都比模板匹配模型更适宜，而且还能说明对一些不规则的，但某些方面与原型相似的图像的识别。但是，这种模型没有说明人是怎样对相似的刺激进行辨别和加工的，它也难以在计算机程序中得到实现。因此又有人提出了一个更复杂的模型，即“泛魔”识别模型。

一般工业使用中，采用工业相机拍摄图片，然后利用软件根据图片灰阶差做处理后识别出有用信息，图像识别软件国外代表的有康耐视等，国内代表的有图智能等。

研究现状图像识别的发展经历了三个阶段：文字识别、数字图像处理与识别、物体识别。文字识别的研究是从 1950年开始的，一般是识别字母、数字和符号，从印刷文字识别到手写文字识别，应用非常广泛。

数字图像处理和识别的研究开始于1965年。数字图像与模拟图像相比具有存储，传输方便可压缩、传输过程中不易失真、处理方便等巨大优势，这些都为图像识别技术的发展提供了强大的动力。物体的识别主要指的是对三维世界的客体及环境的感知和认识，属于高级的计算机视觉范畴。它是以数字图像处理与识别为基础的结合人工智能、系统学等学科的研究方向，其研究成果被广泛应用在各种工业及探测机器人上。现代图像识别技术的一个不足就是自适应性能差，一旦目标图像被较强的噪声污染或是目标图像有较大残缺往往就得不出理想的结果。

图像识别问题的数学本质属于模式空间到类别空间的映射问题。目前，在图像识别的发展中，主要有三种识别方法：统计模式识别、结构模式识别、模糊模式识别。图像分割是图像处理中的一项关键技术，自20世纪70年代，其研究已经有几十年的历史，一直都受到人们的高度重视，至今借助于各种理论提出了数以千计的分割算法，而且这方面的研究仍然在积极地进行着。

现有的图像分割的方法有许多种，有阈值分割方法，边缘检测方法，区域提取方法，结合特定理论工具的分割方法等。从图像的类型来分有：灰度图像分割、彩色图像分割和纹理图像分割等。早在1965年就有人提出了检测边缘算子，使得边缘检测产生了不少经典算法。但在近二十年间，随着基于直方图和小波变换的图像分割方法的研究计算技术、VLSI技术的迅速发展，有关图像处理方面的研究取得了很大的进展。图像分割方法结合了一些特定理论、方法和工具，如基于数学形态学的图像分割、基于小波变换的分割、基于遗传算法的分割等。

主要图像识别方法神经网络图像识别系统人工神经网络方法实现模式识别，可处理一些环境信息十分复杂，背景知识不清楚，推理规则不明确的问题，允许样品有较大的缺损、畸变，神经网络方法的缺点是其模型在不断丰富完善中，目前能识别的模式类还不够多，神经网络方法允许样品有较大的缺损和畸变，其运行速度快，自适应性能好，具有较高的分辨率。

神经网络的图像识别系统是神经网络模式识别系统的一种，原理是一致的。一般神经网络图像识别系统由预处理，特征提取和神经网络分类器组成。预处理就是将原始数据中的无用信息删除，平滑，二值化和进行幅度归一化等。神经网络图像识别系统中的特征提取部分不一定存在，这样就分为两大类：

①有特征提取部分的：这一类系统实际上是传统方法与神经网络方法技术的结合，这种方法可以充分利用人的经验来获取模式特征以及神经网络分类能力来识别目标图像。特征提取必须能反应整个图像的特征。但它的抗干扰能力不如第2类。

②无特征提取部分的：省去特征抽取，整副图像直接作为神经网络的输入，这种方式下，系统的神经网络结构的复杂度大大增加了，输入模式维数的增加导致了网络规模的庞大。此外，神经网络结构需要完全自己消除模式变形的影响。但是网络的抗干扰性能好，识别率高。

当BP网用于分类时，首先要选择各类的样本进行训练，每类样本的个数要近似相等。其原因在于一方面防止训练后网络对样本多的类别响应过于敏感，而对样本数少的类别不敏感。另一方面可以大幅度提高训练速度，避免网络陷入局部最小点1。

基于小波矩的图像识别方法将输入二维二值图像的不变矩作为识别特征，运用BP网络进行识别，将输入图像经过归一化处理，极坐标化，旋转不变小波矩特征提取后，送入BP网络分类器进行识别，获得识别结果。

基于小波矩的图像识别方法的特点如下：

（1）小波矩特征对具有平移、缩放和旋转的样本具有良好的分辨能力，在未加噪声的情况下，小波矩特征都能正确分辨测试样本，识别率优于几何矩，差距达到30个百分点。

（2）随着添加随机噪声，两种矩特征的识别率都有所下降，但由于小波矩具有较好的提取图像局部特征能力，所以小波矩的识别率下降相对缓慢.最高正确识别率达到98%。

（3）小波矩特征较为稳定。几何矩的分辨能力有时不能随着特征数的增加而稳定，这样需要较多的分辨特征的情况下是不利的。而小波矩虽然也有一定波动，但波动幅度有限，其判别精度整体为稳定增加趋势2。

基于分形特征的红外图像识别方法一般认为:自然纹理图像满足分形特性，可以提取其分形特征以供进一步的纹理分割、目标识别等，而人造目标图像是不满足分形特性的，不可以提取其分形特征。基于分形特征的红外图像识别方法步骤如下：

（1）红外图像预处理

由于探测器本身固有的特性，红外热图像普遍存在目标与背景对比度较差，图像边缘模糊，噪声较大等缺点，因此必须进行预处理，以增强其对比度。

（2）红外图像分形特征提取

分别提取提取基于分形维数的特征、基于Hurst指数的分形特征、基于缝隙(lacunarity)的分形特征。

（3）基于神经网络的红外图像识别

人工神经网络是进行目标识别（包括图像识别）的强有力工具。它通过对原始数据的训练，获得最佳的权系数，取得很好的识别结果3。