背景
从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术(Text-based Image Retrieval,简称TBIR),利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索(Content-based Image Retrieval,简称CBIR)技术。CBIR属于基于内容检索(Content-based Retrieval,简称CBR)的一种,CBR中还包括对动态视频、音频等其它形式多媒体信息的检索技术。1
基本概述在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。2
为了进一步提高检索的准确性,许多系统结合相关反馈技术来收集用户对检索结果的反馈信息,这在CBIR中显得更为突出,因为CBIR实现的是逐步求精的图像检索过程,在同一次检索过程中需要不断地与用户进行交互。1
检索分类文本检索基于文本的图像检索沿用了传统文本检索技术,回避对图像可视化元素的分析,而是从图像名称、图像尺寸、压缩类型、作者、年代等方面标引图像,一般以关键词形式的提问查询图像,或者是根据等级目录的形式浏览查找特定类目下的图像,如Getty AAT使用近133,000个术语来描述艺术、艺术史、建筑以及其它文化方面的对象,并推出30多个等级目录,从7方面描述图像的概念、物理属性、类型和刊号等。又如Gograph)将图像分为动态图像、照片、图标、背景、艺术剪辑图、插图、壁纸、界面、成套图像8个一级类,下设数量不等的子类。在图像数字化之前,档案管理者、图书管理员都是采用这种方式组织和管理图像。 图像所在页面的主题、图像的文件名称、与图像密切环绕的文字内容、图像的链接地址等都被用作图像分析的依据,根据这些文本分析结果推断其中图像的特征。1
内容检索基于内容的图像检索根据图像、图像的内容语义以及上下文联系进行查找,以图像语义特征为线索从图像数据库中检出具有相似特性的其它图像。因为图像的规模一般要大于纯粹的文本信息,因此,基于内容的图像检索在检索的速度和效率上要求更高。目前已有不少应用于实践环境的基于内容图像检索系统,如由IBM公司开发的最早商业化QBIC系统,以及由哥伦比亚大学研发的WebSeek系统、麻省理工学院研发的Photobook系统等。通过基于内容的技术检索Web图像,首先需要从Web中剥离图像,组成图像集,对图像集中的各个对象进行基于内容的特征分析、相似度匹配。1
基于内容的图像检索系统一般包括图像处理模块、查询模块、对象库和特征库和知识库。1
检索方法网络上的图像检索方法
根据基于文本的图像检索和基于内容的图像检索的实现原理可以发现,一般图像检索系统提供给用户的查询方法主要包括下列几种形式:1
关键词查找:关键词查找输入关键词对查找图像进行描述,大多数网络搜索引擎提供的是关键词查找的方式检索,例如,希望查找山水风景的图片,可以输入“山水画”;又如希望查找关于猫的图片,可以直接输入“猫”。
浏览查找:浏览查找是指通过等级式类目组织的图像检索人口,图像按照不同的主题进行归类,用户在查找自己希望的图像时,通过点击层层类目的链接,到达自己所希望的类目下的图像。
特征输入查找:对图像的特征参数进行设置,如希望图像中的色彩比例为“R:128 ; G:128; B:64”,或者是对图像的明亮度在0~100%之间加以调节。
草图查找:用户亲自动手绘制希望查找的图像特征,以用户描绘的草图为训练样本,查找与之相似的其它图像。
示例查询:包括系统随机给出样本和用户提交样本两种,由系统随机给出一组图像训练样本时,让用户对这组图像进行评价,选择与自己的检索需求相似的图像,然后根据用户选择的图像进行分析,检出与之相似的其它图像。另外,也可以由用户提供一副图像的地址信息,由图像检索系统即时抓取、即时分析。
归纳而言,图像检索的方法对应于图像特征的三个层次,也可以归结为相应的三个层次:1
简单的可视化特征层次:对图像的简单可视化特征进行查询,如颜色、纹理、形状或者是图像中元素的空间,这些特征反应的一般是图像本身客观的一些属性,因此,一般不需要任何外界知识的辅助。
中间的对象层次:对图像的个体特征进行查询是介于简单的可视化特征查询和高级的抽象语言特征查询的中间状态,一般表现为对局部的特征查询,例如检索图像中的某个对象或者是某个人物等。这种查询一般需要对识别和检索的目标进行一定程度的逻辑推理,所以需要借助外界知识的辅助。
高级抽象的特征层次:对图形的抽象属性的查询,包括检索与某个事件或者是某个活动相关的图像,例如查找反映某种情感色彩,或者是符合某种风格流派的图像,这时需要对这些抽象的目标和场景所代表的意义进行分析,需要对其进行更高级的推理,同时这类特征带有较强的主观色彩,因此,更需要外界知识的辅助。
三个方向图像检索研究的三个方向1
基于文本和基于内容是图像检索发展的两个分支,不过从图像检索研究的趋势而言,尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中,出现了三个不同的研究着眼点。
立足于文本立足于文本,对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上,因为基于文本的检索技术发展已经成熟。如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等,不仅技术发展较为成熟,同时分析和实现的难度略小。但是因为受控词汇本身的局限,易歧义,更新慢,所以不太容易应对网络上日新月异的各类图像。
立足于图像内容立足于图像内容,对图像进行分析和检索。相比而言,尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法,但是要突破对低层次特征的分析,实现更高语义上的检索,实现难度大,进展慢。不过,基于内容的图像检索建立在多媒体信息的内容语义上,能够更为客观地反映媒体本质的特征。
结合文本和内容结合文本和内容,进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现,尤其是网络环境下,结合图像所在Web文档的特征分析,推断图像的特征,同时结合对图像的内容分析,共同标引达到对图像的分析和检索。
可以说,三个方向都是相互影响和促进的,任何一个方向的进展都会促进图像检索技术向前更进一步。
展望图像检索的发展是一个从简单到复杂、从低级到高级的过程,从最初的文本信息查询发展到基于内容的图像检索。同时随着人们对图像理解、图像识别研究的不断深入,提出了基于图像语义的检索,充分利用了图像的语义信息, 提高了图像检索系统的能力。另外,为了解决语义鸿沟的问题,人们提出了基于反馈的信息检索技术,利用人机交互行为,改进系统的能力,提高检索结果的准确性。最后,随着人工智能和信息技术的发展,一种智能的基于知识的信息检索系统成为信息检索领域的发展方向。基于知识的信息检索技术将基于视觉特征和基于文本语义的技术结合在一起,通过建立知识库,实现自动提取语义和图像特征的功能,并且充分考虑到用户特征对检索系统的影响, 这是建立高效、实用、快速的图像检索系统的必然的发展方向。并且图像检索领域的关键问题是对人类视觉机制的进一步了解,即探求人是如何去感知图像内容的, 这个问题的解决能够进一步优化数据特征索引技术, 解决对大规模数据库检索速度的瓶颈问题。随着多媒体数据压缩技术和互联网的迅速发展,信息的形式多种多样,视觉信息数据不仅包括单幅的图像数据还包括视频数据,针对视频数据的特点,进行高速、可靠的检索也是一个需要研究的课题。将信息检索技术推向实用化, 也是信息技术发展的主要目标。3