版权归原作者所有,如有侵权,请联系我们

[科普中国]-彩色文字识别

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

字符识别系统OCR识别系统

OCR是OptcaI Character Recognition的简称,指光学字符识别技术,是自动识别技术研究和应用中的一个重要领域。

光学字符识别技术的工作原理是通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,采用光学的方式将文档资料转换成原始黑白点阵的图像文件,利用各种模式识别算法分析文字形态特征,判断出文字的标准编码,通过识别软件将图像中的文字转换成文本格式,并按通用格式存储在文本文件或者数据库当中,还可以利用文字处理或者编辑软件或者进一步加工。通俗的说OCR实际上是让计算机认字,实现文字信息自动输入,帮助人们低成本、快速度、高质量地将文档资料和各类纸介信息进行数字化,推进信息资源的开发和利用2。

OCR发展意义1.文字识别是中文信息录入的快捷手段,由于汉字是非字母、非拼音化的文字,笔划复杂多样,人工键入速度慢而劳动强度大,计算机自动识别文字或语言方式解决了这一难题,能快速高效地将汉字输入进计算机。

2.文字识别技术是提高办公自动化水平的主要因素。办公自动化就是要借助计算机来进行文档的处理, 以代替人们日常的办公活动,在现代社会,图像信息占有较大的比重,存在大量文字信息,因此,文字的自动识别对图像的处理有重要的意义。

3.文字识别技术丰富和完善了文字识别理论。现在人们已可通过手写文件经OCR 产品的识别录入计算机, 大大推动发展了文字识别理论。

4.文字识别是智能计算机智能接口的重要组成部分,智能计算机能认识文字、图像和景物,能听懂语音、理解文字。视觉是智能计算机接受外界信息的主要手段,而识别文字是智能计算机必备的功能3。

识别方法文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分。

信息采集将纸面上的文字灰度变换成电信号,输入到计算机中去。信息采集由文字识别机中的送纸机构和光电变换装置来实现,有飞点扫描、摄像机、光敏元件和激光扫描等光电变换装置。

信息分析和处理 对变换后的电信号消除各种由于印刷质量、纸质(均匀性、污点等)或书写工具等因素所造成的噪音和干扰,进行大小、偏转、浓淡、粗细等各种正规化处理。

信息的分类判别 对去掉噪声并正规化后的文字信息进行分类判别,以输出识别结果。

文字识别方法 文字识别方法基本上分为统计、逻辑判断和句法三大类。常用的方法有模板匹配法和几何特征抽取法。

模板匹配法模板匹配法是将输入的文字与给定的各类别标准文字(模板)进行相关匹配,计算输入文字与各模板之间的相似性程度,取相似度最大的类别作为识别结果。这种方法的缺点是当被识别类别数增加时,标准文字模板的数量也随之增加。这一方面会增加机器的存储容量,另一方面也会降低识别的正确率,所以这种方式适用于识别固定字型的印刷体文字。这种方法的优点是用整个文字进行相似度计算,所以对文字的缺损、边缘噪声等具有较强的适应能力4。

几何特征抽取法几何特征抽取法是抽取文字的一些几何特征,如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等,根据这些特征的位置和相互关系进行逻辑组合判断,获得识别结果。这种识别方式由于利用结构信息,也适用于手写体文字那样变型较大的文字5。

支持向量机文字识别一直是模式识别最重要的研究领域之一。经过多年的研究,已经取得了大量成果。但是,无约束的非特定人手写汉字识别仍然被认为是文字识别领域最困难的问题之一 ,其原因可以归结为 : (1) 汉字规模大 。(2) 相似汉字较多, 且有些相似字差别极其细微。(3) 存在大量的不规则书写变形。 由于(2) 、(3) 的存在 ,导致手写汉字,特别是相似字在特征空间中的距离变小,使得普通的距离分类器的推广能力变弱。 因此,如何补偿手写汉字的书写变形,提高分类器的泛化和推广能力,就成为汉字识别研究的关键问题之一。

而支持向量机作为一种新的机器学习方法,由于其建立在结构风险最小化准则上。而不仅仅是经验风险最小,从而使得其具有较强的泛化推广能力6。

应用领域文字识别可应用于许多领域,如阅读、翻译、文献资料的检索、信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银行支票的处理、商品发票的统计汇总、商品编码的识别、商品仓库的管理,以及水、电、煤气、房租、人身保险等费用的征收业务中的大量信用卡片的自动处理和办公室打字员工作的局部自动化等。以及文档检索,各类证件识别,方便用户快速录入信息,提高各行各业的工作效率。