[科普中国]-统计模式识别-

内容

一个模式识别系统一般工作在两个方面：训练和分类；统计模式识别的理论依据就是贝叶斯理论，当然也可采用修正的bayes理论（风险估计）2；当然bayes理论要求类的分布情况，在已知分布情况下就可直接使用，但一般这种可能性较小，对于只是知道分布函数，但不知道参数的情况，就是估计参数的过程，而在更一般情况下，对应分布是一点信息没有，这样可采用Parzen窗核函数估计其分布或直接基于训练数据建立决策边界。实际上多层感知器就是一个非参数的过程。

统计模式的一种分类方法分为指导性训练和非指导性训练；非指导性训练一般对于数据的已知信息很少，如远程的空间遥感应用，这里一般采用聚类的方法。另一种分类方法是基于决策边界是直接获得还是间接获得，前者一般是在几何空间就可完成。无论采用那种方法，训练集非常关键，主要训练的数据量要足够大而且要足够典型，这样才能保证算法的可靠性，训练集的应用上注意以下几点：训练样本的个数应该在10倍于特性数据维数；相对于训练样本，分类器的未知参数不能过多；分类器不能出现过度训练的问题。3

统计模式识别方法就是用给定的有限数量样本集，在已知研究对象统计模型或已知判别函数类条件下根据一定的准则通过学习算法把d维特征空间划分为c个区域,每一个区域与每一类别相对应。模式识别系统在进行工作时只要判断被识别的对象落入哪一个区域，就能确定出它所属的类别。由噪声和传感器所引起的变异性，可通过预处理而部分消除；而模式本身固有的变异性则可通过特征抽取和特征选择得到控制，尽可能地使模式在该特征空间中的分布满足上述理想条件。因此一个统计模式识别系统应包含预处理、特征抽取、分类器等部分。

基本过程数据采集与预处理数据的采集是进行统计模式识别验证的前提条件。一个性能良好的识别系统一定需要首先捕获到好的特征数据。利用这些数据，我们就可以进行后续的预处理、特征提取、特征选择等工作。一般来说，这里的数据采集肯定需要借助相应的硬件设备，诸如，声音传感器、图像传感器等等。如果传感器的灵敏度不高，或者传感器的精确度不高，那么势必会对所采集到的数据产生一定的噪声污染。这样一来，尽管可以通过后续的预处理来减弱甚至消除一部分噪声，但是，终究无法做到完全去除噪声的干扰。所以，数据采集部分应该尽量保证所得到的数据纯正、干净。通常我们可以采集相当数量的数据，并从中选择最优、最好、最具有代表性的数据来作为原始的输入。这样，就从源头上保证了数据取样对最终生物识别验证系统的干扰最小。

另外，需要注意的是，针对不同的生物特征，数据采集的方法和原理是不同的。掌纹识别，是基于人的手掌脉络的不同分叉、线条的粗细等特征为依据来进行最终的识别。笔迹识别则是利用了不同的人在签名时笔划的长度、角度、偏移，握笔的力度、书写时的速度，加速度等特征来进行区分的。

在基于统计方法的模式识别技术领域，所谓的预处理一般是指去除噪声的干扰，加强有效信息的过程。前面已经提到，原始数据的采集不可避免的要引入一些噪声的干扰，对于一个实际的生物识别系统而言，预处理是一个必要的环节。但是，需要注意的是，虽说预处理的作用都是减弱甚至消除噪声的干扰，同时增强有用信息的强度，不过，针对不同的特征，预处理的方法也是千差万别。

特征提取一般来说，从传感器得到的数据属于原始测量空间的数据，而原始测量空间的数据是无法直接进行判别分类的，或者说，直接利用原始测量空间得到的数据进行判别分类往往达不到期望的效果。通常来说，我们需要将数据从原始的测量空间“变换”到二次空间，而这个二次空间，研究人员一般将它称为特征空间。将数据从原始空间变换到特征空间后，我们就得到了表征某模式的二次特征，一般我们所指的特征就是这里所谓的二次特征。

就特征的属性而言，大体上可分为三类：(1)物理特征，(2)结构特征，(3)数学特征。就特征抽取方法而言,其研究的内容可分为二类：(1)若对象的属性是明确的则研究的核心问题是如何将它们与目标物体的其它部分分离开来并转化为能为计算机所接受的数据，(2)若对象的属性不很明确，则需研究特征抽取的一般原则。

在模式识别的文献中，已提出多种准则函数供特征抽取时参考和利用，基于Fisher判别准则的变换是最为重要的一种特征抽取方法。此外,还有基于最小均方误差的准则(它对应于K一L变换特征抽取)，基于瑞利商的准则，基于最小错误概率的准则等。人们已注意到，特征压缩的投影方向取决于选择的准则,而不同的投影方向对于识别的效果将产生很大影响。4

分类属于同一类别的各个模式之间的差异，部分是由环境噪声和传感器的性质所引起的，部分是模式本身所具有的随机性质。前者如纸的质量、墨水、污点对书写字符的影响；后者表现为同一个人书写同一字符时，虽然形状相似，但不可能完全一样。

因此当用特征向量来表示这些在形状上稍有差异的字符时，同这些特征向量对应的特征空间中的点便不同一，而是分布在特征空间的某个区域中。这个区域就可以用来表示该随机向量实现的集合。假使在特征空间中规定某种距离度量，从直观上看，两点之间的距离越小，它们所对应的模式就越相似。在理想的情况下，不同类的两个模式之间的距离要大于同一类的两个模式之间的距离，同一类的两点间连接线上各点所对应的模式应属于同一类。一个畸变不大的模式所对应的点应紧邻没有畸变时该模式所对应的点。在这些条件下，可以准确地把特征空间划分为同各个类别相对应的区域。在不满足上述条件时，可以对每个特征向量估计其属于某一类的概率，而把有最大概率值的那一类作为该点所属的类别。

分类器有多种设计方法，如贝叶斯分类器、树分类器、线性判别函数、近邻法分类、最小距离分类、聚类分析等。

分类器Fisher分类器Fisher线性判别分析的基本思想：通过寻找一个投影方向（线性变换，线性组合）将高维问题降低到一维问题来解决，并且要求变换后的一维数据具有如下性质：同类样本尽可能聚集在一起，不同类的样本尽可能地远。

Fisher线性判别分析，就是通过给定的训练数据，确定投影方向W和阈值y0，即确定线性判别函数，然后根据这个线性判别函数，对测试数据进行测试，得到测试数据的类别。

线性鉴别函数LDA将样本换算到某个空间，最大化组间差异，最小化组内差异，随后将每个组求平均向量，求出组内所有向量与其的距离和矩阵X每个组的平均向量之间再平均得到全局平均向量，每个组内平均向量与全局平均向量的距离和矩阵Y。最后求这两和的比例的Y/X最大值。

在向量空间里就是求矩阵的特征向量，投影到这个特征向量后聚合度就明显了。（对比主向量，主向量是说投影到这个主向量后特征区分更明显）

SVMSVM是一种经典分类器。支持向量机 (SVM) 是一个类分类器，正式的定义是一个能够将不同类样本在样本空间分隔的超平面。换句话说，给定一些标记(label)好的训练样本 (监督式学习)，SVM算法输出一个最优化的分隔超平面。SVM算法的实质是找出一个能够将某个值最大化的超平面，这个值就是超平面离所有训练样本的最小距离。这个最小距离用SVM术语来说叫做间隔(margin)。概括一下，SVM分类器就是最优分割超平面最大化训练数据的间隔。

K-meansK-Means算法是以距离作为相似度的评价指标，用样本点到类别中心的误差平方和作为聚类好坏的评价指标，通过迭代的方法使总体分类的误差平方和函数达到最小的聚类方法。5

（1）从 n个数据对象任意选择 k 个对象作为初始聚类中心；
（2）循环（3）到（4）直到每个聚类不再发生变化为止
（3）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；
（4）重新计算每个（有变化）聚类的均值（中心对象）

Boosting在实际的分类中通常使用将多个弱分类器组合成强分类器进行分类的方法，统称为集成分类方法（Ensemble Method）。比较简单的如在Boosting之前出现Bagging的方法，首先从从整体样本集合中抽样采取不同的训练集训练弱分类器，然后使用多个弱分类器进行voting，最终的结果是分类器投票的优胜结果。这种简单的voting策略通常难以有很好的效果。直到后来的Boosting方法问世，组合弱分类器的威力才被发挥出来。

Boosting意为加强、提升，也就是说将弱分类器提升为强分类器。而我们常听到的AdaBoost是Boosting发展到后来最为代表性的一类。所谓AdaBoost，即Adaptive Boosting，是指弱分类器根据学习的结果反馈Adaptively调整假设的错误率，所以也不需要任何的先验知识就可以自主训练。6

Adboosting所有样本作为训练集，初始权重，训练弱分类器分错的增加权重，再训练，最终得到的分类器是弱分类器的加权平均。7

应用脱机手写识别脱机手写识别(offline handwriting recognition)是文字识别中最有挑战性的一个问题。主要原因有二，一是手写文字(样本)变化很大，不同的人有不同的字体和风格，一些比较潦草的字，常常连人都难以辨认。二是脱机识别的对象是已经写好的字，因此难以像联机识别(onfine recognition)那样提取出对识别很有帮助的笔顺信息。

Bayes分类器模型是统计模式识别的基本模型。该模型基于各候选类的先验概率密度函数(PDF)计算输入样本属于各类的概率。因此要利用Bayes分类器进行文字识别，就要将各候选字的PDF事先估计出来，存储在系统之中。由于各字的PDF难以用简单的概率分布解析描述，因此须用数值描述。但由于汉字种类很多，存储所有字
的PDF数值描述通常需要很大的空间。近年来有学者提出用分段线性近似的方法描述PDF，只用6个数据便能描述一个PDF。从而实现了一个低存储开销的基于Beyes分类器的手写汉字识别系统。

语音识别语音识别的主要困难来自于语音的多变性，即人们讲话的声音受性别、年龄、口音、语速、情绪、身体状况、文化程度、社会地位等众多因素的影响。克服语音多变性的手段同样是特征抽取和分类器建模。但适用于语音识别的方法与文字识别的方法有所不同。在特征抽取方面，人们普遍采用线性预测倒谱系数(LPCC)、镁尔频率倒谱系数(MFCC)等方法；在分类器建模方面，早期主要采用动态时间弯曲(DTW)和矢量量化(VQ)的方法，而目前主要采用HMM。

HMM改变了以往利用观测语音直接判断含义(说话人要讲的是什么)的方法，而是先计算发音系统经历了哪个运动(状态转移)过程产生的这个语音，然后再来判断说话人要说什么。这种方法在语音和含义之间搭建了一个桥梁，即发音系统的运动过程。从而降低了直接由具有多变性的语音判断含义的困难。

图像识别图像识别是模式识别的一个重要领域，涵盖目标识别、指纹识别、掌纹识别、虹膜识别、人脸识别等多个方向。近年来，随着生物信息识别技术在身份认证、信息安全以及反恐等领域中重要作用的突显，图像识别技术受到了广泛的重视。

指纹识别是最成熟的一项生物信息识别技术。目前，各种类型的指纹识别系统已在公安、海关、公司门禁、PC机设锁等多种场合得到应用，成为展现图像识别技术实用价值的标志。指纹识别系统既有应用于公司、家庭或个人计算机的嵌入式系统一指纹锁，也有用于刑侦、护照通关、网络身份认证等领域的大型系统。嵌入式系统存储的指纹(特征)数较少(一般在100枚以内)，可用简单的算法实现高精度识别，所要解决的主要问题是如何用简单、小巧、廉价的设备实现指纹的正确采集和识别。大型系统往往需要储存上百万的指纹，因此如何提高指纹的比对速度便成为关键。为了能够进行快速处理，需要对指纹进行很好的组织和采用高速算法。8