在文本图像压缩中,当标记被抽取以后,它们要和已经在图像库中的符号进行匹配,但是库中符号数量较多,为了加快匹配速度,必须降低执行的匹配数量。库模板筛法是一种基于特征的模板匹配方法,其中特征不是标记的高度和宽度,而是标记的周长和面积,因为这两个特征抵御数字化过程中引入的噪声。
定义库模板筛法是一种模板匹配方法,主要基于标记的特征,与输入标记明显不同的符号不必匹配,例如在宽度和长度上明显不同的模板必定是不相似的。库模板筛法主要基于面积和周长,当抽取标记后很容易得到这些数据,然而在实践的操作中并没有看起来容易,一方面因为它们和标记的宽度和高度有关;另一方面因为它们对噪声和数字化过程的参数特别敏感。其他看上去更确定的特征是垂直和水平的白行程数。库模板筛法的一个更好基础应该是比较两个标记中黑像素团的分布。通过将像素根据其质心注册,然后将其划分为围绕质心的4象限来实现。对于每个象限,计算其质心:对4个局部质心,分别计算其在两个标记中位置的距离,最后将4个距离平均。这一过程可能不断地重复,以确定一个基于原始质心的0级上距离(改质心距离为0,因为使用的是质心注册)、一个如上所述的1级上的距离,以及更高级上的距离。测试表明,优良的筛选结果往往是在1级距离上获得的,更复杂的处理并无必要。
模板匹配文本图像压缩中需要创建在图像中出现的形状库。这些形状通常和字符有关,在图像中出现的形状就会被指向图形库的指针替换。一般来说,虽然存在许多变体,但处理步骤包括如下:
找出、分离并且抽取所有的标记,即图像中聚集在一起出现的黑色像素。
建立一个包含图像中发现所有标记的库
通过识别图像中的符号找到库中与之最接近的标记实现,并度量一个标记和下一个标记的偏移值。
压缩符号顺序和偏移并存储入库。由于这一步骤中所存储的信息可以产生称为重构文本的原始图像的近似,所以为了重构图像无损,需要包括下面处理步骤:存储足够的信息以完成从重构文本中恢复原始图像。
当标记被抽取出来以后,需要将其与已经在库中的标记匹配,所有匹配库成员的标记都会被保存在一个集合中。如果当前标记与库中现有的一个标记足够匹配的话,则将其添加到与改符号相应的匹配标记集中,尽管将一个标记与每一个库中模板进行匹配查找出与其最接近模板的可靠,但在一个模板被发现于一个特定的相似阈值之内时即立即终止运算会更有效。如果没有发现足够近似的匹配点,则将新标记添加到库中。模板匹配对成功识别标记至关重要,匹配过程一般通过检查误差图来实现,误差图通过将新符号和库成员逐比特进行异或得到。在计算误差图之前,匹配的双方必须要正确注册。新符号添加在库中每个符号之前,为此需要在库中设置一个固定的参考点。
标记标记(signature)是边界的一维表达,可以用多种方法来产生。其基本思想是将原始的二维边界用元函数来表示,以降低表达难度。最简单的方法就是把从重心到边界的距离作为角度的函数来标记。
标记与链码同样不受边界平移的影响,但是当边界旋转或者发生尺度变换时,标记格会发生改变。对于旋转问题,可以采用类似于链码的旋转归一化方法进行解决。更常用的方法是通过固定标记的起始点来归一化。例如,可以选择离重心最远的边界点作为起始点,或者选择主轴上的某一点。虽然后者的计算量比较大,但是它比前者更加可靠,因为它用到了所有的边界点来参与计算。而对尺度变化则可以通过幅度的归一化来处理。
文本图像概述
文本图像(textual image 或 text image)是一种特殊类型的黑白二值图像,它的主要特点是其内容一般由文字部分组成。从数据压缩的角度来看,文本图像存在位图和符号两个层次的冗余,后者是由图像中重复的符号引起的。针对文本图像的压缩标准和算法主要G3,G4JBIG和JBIG2等,其中 G3,G4和 JBIG 都是基于位图层次的压缩方法,而JBIG2是基于位图和符号层次冗余的两层压缩方法。另外,基于混合光栅内容( mixed raster content,MRC) 的DjVu 主要用于复合文档的压缩,它通过一个黑白二值掩码(mask)将图像分成前景和背景,然后对不同的部分再采用适合的算法分别进行压缩,其中对于掩码的压缩采用的是JB2算法。JB2 是 JBIG2 的一种变体,它和 JBIG2 的基本思想和实现方法都是类似的。JBIG2是最先进的文本图像压缩算法,如上所述它实现了一个两层压缩结构:首先根据“字典”的思想,采用模式匹配策略将不同的符号存储到一个模式字典中,这样图像中相同的符号就可以用字典中的匹配符号及其索引进行替代;然后对于得到的字典、索引以及符号的位置信息再采用基于信息熵的算术编码进行压缩。 模式匹配的过程中,所谓“相同”的符号是指其相对于人的视觉是相同的,而在位图层次往往不完全相同。如何将视觉上相同的符号归为一类是模式匹配算法面临的一个很大挑战。这是因为,由于扫描过程中的抖动、噪音 等原因,有些视觉上相同的符号在位图层次可能有比较大的差异,而某些外形接近的不同符号在位图层次的差异可能是比较小的。和英文文本图像相比,中文文本图像中的字符集规模更大,很多汉字结构比较复杂,且形近字非常多。中文文本图像的这些特点增加了对符号进行模式匹配的难度1。
JBIG2 是由 ITU和ISO组成的二值图像联合专家组(joint bi-level image expert group,JBIG)提出的一个压缩标准。JBIG2 的一个重要特点是:只规定了解码的标准和流程,而并没有定义一个明确的编码器。JBIG2 将编码程序开放,是为了鼓励研究者们针对不同特点的文本图像开发更加高效的编码算法。
JBIG2 的主要技术最早由美国贝尔实验室的Howard 等开发,主要包括 “模式匹配与替换 ”(pattern matching and substitution,PM&S) 和“软模式匹配”(soft pattern matching,SPM)技术。这些技术后来被ISO 采纳成为了 JBIG2 标准的一部分。美国加州大学圣地亚哥分校的 Ye 等对JBIG2 进行了系统的研究 ,主要从符号字典设计 、模式匹配速度和有损压缩的重构图像质量控制等方面提出了很多先进的算法。对于有损压缩系统,Ye 等针对英文字符的特点提取了符号的尺寸、象限矩心距离(quadrant centroid distance,QCD)以及拓扑结构作为特征,并利用这些特征来减少有损压缩中的替换误差。由于 Ye 等在 JBIG2 方面所做出的出色工作,其研究成果通过加州大学圣地亚哥分校的技术转移部门转让给了Apago 公司并应用到其商业化的产品中,成功实现了技术成果的转化。
意义
对于一些非常重要的正式文件,它的主要存储方式为文本图像。与文本文件相比较,图像文件能够对场景更加直观、真实的进行表述,对其不易进行篡改或者伪造。比如一些更能体现其真实性和有效性的图像文件,如包含手写签名、银行票据的图像文件。当今社会,不管是在商业经济方面还是政府部门等领域,对于很多重要的信息都是以电子图片的方式进行交流的。然而,不管是什么事物,它都具有两面性,在图像文件的管理方面,有着不容忽视的劣势。如果用图像的形式存储文字信息,信息量将变得很大,所需的存储空间也比电子文本文件大,不利于文字信息的快速识别。随着计算机技术的进步,这些不足将会逐渐被克服。
文本图像检索的实际应用涉及面广,可以运用到办公的文件管理、日常生活的文件查询、国企银行单位票据文件查询和检索等多个方面。
文本图像文件的高效、智能分类。在工作中,为了提高管理效率、使得信息的查询更加方便,就需要对大量的文本图像信息做一定的整理和分类。比如公司合同文件,它是依据公司标志信息的不同,利用文本图像检索技术将大量的错综复杂的图像文件进行分类和归档,高效智能的完成图像文件的管理,提高了业务办公的智能性和效率。
文本图像自动查询。虽然已经有 PDF、WORD 等电子文档查询的应用软件,但是用于检索文本图像内容的应用软件很罕见。日常生活中对文本图像文件检索的需求却在增加。如果对大量文本图像进行管理,不仅需要大量的人力、物力,而且工作量也非常大。尤其是需要查找图片文件中的关键字等特定信息,就要人工进行查看每张图的内容,并且还要相当仔细,导致工作量的增加,效率也不高,不但成本耗费大,也不能满足当前实际应用的需求。本文所研究的文本图像自动检索技术实现文本图像文件的快速查询和智能管理,能够帮助文件管理
人员快速、高效地处理图像文本文件,具有较大的实际应用意义。
知识产权保护。随着 IP 时代的到来,人们对知识产权也越来越重视,并颁布了相关法律对其进行保护。为了有效地管理和搜索查询只是产权文件,可以使用文本图像检索技术。图像文件保证了产权文件的不易篡改,自动检索技术提供了关键信息的快捷查询。随着文本图像文件量的急剧增加,文本图像的检索技术的作用体现得越来越明显。
合同管理。在当今法制社会中,具有法律效力的合同文件是经济市场中不可或缺的文件。合同文件的关键信息之一是个人签章或者手写签名。在合同文件图像的管理中,管理文件的员工不需要埋头在纸质文档中寻找领导需要的合同文件,只需敲敲手指就能在计算机上查找出来。手写字体的自动检索技术应用到合同图像文件中个人签名内容的识别,将大大提高对合同管理的效率。
其它用途。文本图像检索技术同样可以应用到军事中,对危险病毒文件自动监控和拦截以及对远方地理信息的描述等等。
本词条内容贡献者为:
方正 - 副教授 - 江南大学