[科普中国]-图像自动标注-

图像自动标注是由计算机系统自动通过图片说明或关键词的形式分配元数据给一张数字图像的过程。这个计算机视觉技术的应用被用在图像检索系统来对数据库组织和定位感兴趣的图像。

简介图像自动标注是指针对图像的视觉内容，通过机器学习的方法自动给图像添加反应其内容的文本特征信息的过程。基本思想是: 利用已标注图像集或其他可获得的信息，自动学习语义概念空间与视觉特征空间的潜在关联或者映射关系，给未知图像添加文本关键词。经过图像自动标注技术的处理，图像信息问题可以转化为技术已经相对较成熟的文本信息处理问题。

基于分类思想的图像标注方法基于分类的图像标注模型是一种有监督的机器学习方法。分类器训练过程会不断地通过反馈信息调整分类器，使得分类器达到某个精度。分类模型的基本思想是: 先对图像进行分割，过滤噪声和过分割部分，把每一个语义概念当作一个类别，对分割后的图像进行分类。图像的自动标注实际上可以看作图像分类问题来处理。

多示例多标记标注一幅图像由多个区域组成，不同的区域对应不同的语义关键字。比如一幅图像中有蓝天、白云、草坪，马等语义，其中的任何一个语义只是存在于图像中的某个区域，并不是图的全局都包含这些语义。所以全局特征不能很好的表示图像的高层语义。多示例学习问题被引入解决图像标注的有歧义问题。

Dietterich1等人首先用多示例学习模型来研究药物活性问题，通过训练正包和反包生成模型，对未知图像包进行标注。在此多示例图像标注研究的基础上，Yang C2等人提出了多示例学习领域经典的多样性密度 (Diverse Density) 算法来解决标注问题。算法的基本思想是如果特征空间中某点最能表征某个给定关键词的语义，那么正包中应该至少存在一个示例靠近该点，而反包中的所有示例应该远离该点。因此该点周围应当密集分布属于多个不同正包的示例，同时远离所有反包中的示例。特征空间中如果某点附近出现来自于不同正包中的示例越多，反包中的示例离得越远，则该点表征了给定关键词语义的概率就越大。用多样性密度来度量这种概率，具有最大概率的点即为要寻找的目标点。

多示例多标记的图像标注方法，只是提供了图像底层特征与高层语义之间的更好的对应的新思路，对于提取出来的特征向量仍然需要训练分类模型进行分类。

多分类标注为了进一步提高图像标注的准确率，很多研究者提出了多分类模型。Carnerio提出了一种有监督的多分类标注方法 (Supervised Multiclass Labeling，简称SML)3，这种方法将每个关键词看作是一个类，通过机器学习中的多示例学习方法来为每个类生成对应的条件密度函数，并将训练图像看作是与它相关的标注关键词所对应的条件密度函数的一个高斯混合模型。路晶，金奕江等人4提出了使用基于SVM的否定概率和法的图像标注的方法，此标注方法的基本思想是: 先建立小规模图像库为训练集，库中每个图像标有单一的语义标签，再利用其底层特征，以SVM为子分类器，“否定概率和”法为合成方法构建基于成对藕合方式 (PWC) 的多类分类器，并对未标注的图像进行分类，结果以N维标注向量表示。

以上这几种聚类方法，通常都是基于视觉特征，将具有视觉特征的区域划分为同一类别，只要视觉特征相同就可以归为一类，不管其语义特征是否相同，都用相同的关键字，所以这种分类方法的图像标注的准确率不是特别高。

Hinton提出了深度信念网，它由一组受限玻尔兹曼机 (RBM) 组成，可以实现自主地进行特征学习，这一发现促使了对深度学习领域5的研究，并将这项技术应用于图像分类标注领域中。2011年，Marc' Aurelio Ranzato等人6利用深度学习的思想，设计实现了深度生成模型完成特征学习，并将该模型应用于图像识别和分类工作中。深度学习的兴起，促进了基于图像分类的图像标注领域的进一步完善。

相关模型图像自动标注相关模型图像自动标注方法是基于早期的概率关联模型而来，不同于概率关联模型的地方是它不仅仅简单地统计图像区域与关键词出现的共生概率，而是建立图像与语义关键词之间的概率相关模型。通过关联模型，给待标注图像找到与其相关性概率最大的一组语义关键词来标注图像。

2003年Lavrenko在CMRM模型的基础上改进并提出了连续特征相关模型 (Continuous - space Relevance Model，简写CRM)7。随后，Feng S，Lavrenko等人又在CMRM和CRM模型的基础上改进而形成了多伯努利相关模型(Multiple - Bernoulli Relevance Model，简写MBRM)8，此模型仍然采用规则的网格划分图像，但是标注关键词的概率分布是通过MBRM来估计的。Pan等人采用了EM算法来估计图像区域与关键词的关系9。

以上相关模型的自动图像标注方法，都是先对图像进行分割，对分割后的图像子区域与特征关键词利用关联模型求联合概率，然后对图像进行标注。

半监督模型图像自动标注半监督模型图像自动标注是一种重要的机器学习方法，已经标注的图像信息和未被标注的图像信息都要参与到机器的学习过程中，与前面提到的基于分类的有监督机器学习方法不同，在学习过程中可以利用的图像信息更多，对信息的了解更加清楚，它适用于图像信息总量大，而已被标注的图像信息很少的情形。这种图像标注方法在大数据环境下可以得到很好地推广。

半监督模型方法

Pan首先将图学习模型应用于图像标注领域，提出了一种基于图模型的自动图像标注方法 (Graph - based Auto-matic Caption，GCap)10，该方法的主要思想是: 将图像、图像区域以及标注词分别作为3种不同类型的图的节点，并根据它们之间的相关性来连接构造图。这种方法初步提出了图模型标注的基本思想，对于图像节点之间的权值问题以及标注词与标注词、图像与图像之间的相关性问题考虑的较少。图像标注结果不理想。

在Pan提出的图像标注方法基础上，还有其他一些改进方法，如Liu提出了一种自适应的基于图模型的图像标注方法 (Adaptive Graph - based Annotation method，AGAnn)11，该方法综合考虑了图像与图像之间的关系、图像与标注词之间的关系以及标注词与标注词之间的关系，并提出了用Word Net获得词间的关系来为图剪枝，设计了基于流形排序算法 (Manifold - Ranking) 的自适应相似图来对这些信息进行传播，最终实现图像标注。

图像标注方法比较基于分类的图像标注，国内外学者提出很多方法，一大部分是通过先提取训练图像的底层特征，然后在底层特征和关键词分类器之间建立分类模型，再对未标注的图像集运用这个模型进行分类，完成图像标注。早期的分类器只能实现图像与关键词之间的一对一标注，后来经过对分类器的改进，可以实现一对多的分类。但是基于分类的图像标注，无论是一对一的分类方式还是一对多的分类方法，都在不同程度上受到分类器个数的约束和限制，对于大数据环境下的图像或者大量关键词的标注情况不适用。但是，基于分类模型的图像标注在图像识别和检索方面有很明显的优越性。

相关模型的图像标注方法是通过构建一个概率统计模型来计算图像内容和标注关键词之间的联合概率。图像底层特征与标注关键词之间不是一一对应的，联系不是太紧密。但是要想准确得到图像内容与标注词之间的联合概率，就要分析语义关键词之间存在的共生概率关系，语义关键词之间的不独立性，会造成计算得到联合概率不准确，而影响标注结果。

基于半监督模型图像标注方法的优点是在学习阶段可以利用更多的数据，更加适合于已标注的训练数据量相对较小、总数据量较大的情况。这种图像标注方法在大数据环境下可以得到很好地推广。但是该种标注方法也有缺点，在标注的过程中必须考虑图像间的权值问题，以及图像与图像之间，词与词之间，图像与词语之间的相关性问题，而这些问题也是基于图像标注过程中的关键点与难点。

本词条内容贡献者为:

王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所