概述
模式分类是通过构造一个分类函数或者分类模型将数据集映射到某一个给定的类别中,它是模式识别的核心研究内容,关系到其识别的整体效率,广泛应用于各个研究领域。模式分类方法主要包括支持向量机( SVM) 、BP 神经网络、K 近邻( KNN) 、朴素贝叶斯( Naive Bayes) 、线性判别分析( LDA) 和二次判别分析( QDA) 共六种模式分类方法。支持向量机的高效性和BP 神经网络适合处理复杂性问题的特性,使这两种方法是当前应用最广泛的分类方法。K 近邻方法是一种基于权值的聚类方法,在分类中能得到较好的分类效果。朴素贝叶斯是基于概率的分类方法,易于理解且容易实现。线性判别分析、二次判别分析是采用不同判别函数的判别分析方法,是最常采用的分类方法。
主要包括用于模式分类的方法很多,主要基于统计分析理论,如Bayesian 方法、Fisher 判别、K-近邻分类等。
支持向量机支持向量机方法( Support Vector Machine,SVM) 是通过统计学习理论发展起来的,主要是研究有限样本的情况。支持向量机的任务是找到最大化两类数据点边缘的决策平面,即最优分类面。
BP 神经网络BP( Back Propagation) 神经网络是一种神经网络学习算法,由输入层、中间层、输出层组成的阶层型神经网络,中间层可扩展为多层。BP神经网络是一种误差逆向传播算法,采用梯度下降法作为其学习规则,网络的权值和阈值是不断地通过方向传播进行调整,从而达到最好的分类效率。
K 近邻K 近邻法( K - Nearest Neighbour,KNN) 是在1967年由Cover 和Hart 提出的,是一种理论上比较成熟的方法。KNN 分类算法是非参数化方法,其基本思想:首先搜索训练集,找出最接近待分类对象d 的k 个训练样本,这k 个训练样本是d 的最近邻,其度量方法有欧氏距离法、马氏距离法、曼哈顿距离法等。
线性判别分析判别分析是在观测样本数据的基础上,判断研究对象属于哪一类的方法。进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值,判别分析就是要从中挑选出含有较多信息的变量并建立判别函数,然后对未知样本的类别进行分类。
线性判别分析( Linear Discriminant Analysis,LDA)即fisher 线性判别,被广泛用于模式分类中,其主要是将高维的样本投影到最佳鉴别矢量空间,提取分类信息并压缩特征维数,以达到使类内距离最小同时类间距离最大,从而使各模式能被最好地分离开。
朴素贝叶斯方法朴素贝叶斯(Naive Bayes)是贝叶斯的一种,朴素是指特征之间必须相互独立。朴素贝叶斯是一种非常简单高效的分类方法。
二次判别分析二次判别分析( Quadratic Discriminant Analysis,QDA) 类似于线性判别分析,线性判别分析进行分类时用的是直线,故为线性的,而二次判别分析在进行分类时用的是二次曲面将数据或相关事务分成两个或以上的类,它是线性判别分析的一般版本。
方法比较支持向量机的高效性和BP 神经网络适合处理复杂性问题的特性,使这两种方法是当前应用最广泛的分类方法。K 近邻方法是一种基于权值的聚类方法,在分类中能得到较好的分类效果。朴素贝叶斯是基于概率的分类方法,易于理解且容易实现。线性判别分析、二次判别分析是采用不同判别函数的判别分析方法,是最常采用的分类方法1。
模式识别和分类的区别模式识别主要是对已知数据样本的特征发现和提取,比如人脸识别、雷达信号识别等,强调从原始信息中提取有价值的特征,在机器学习里面,好的特征所带来的贡献有时候远远大于算法本身的贡献;模式分类可以理解为对具有了给定特征的样本通过分类器来进行分类,典型的模式分类方法有线性分类器(感知器,Fisher判别)、非线性分类器(BP神经网络、RBF、SVM),现实场景中主要是非线性啦,还有贝叶斯判决、C4.5、随机森林等。
这两者还会有个区别,目前模式识别主要是无监督学习,人为构造算法的成分比较大(比如,人脸里面,工程师会事先告诉算法某些地方的特征),而在模式分类上,机器学习可以发挥的空间就比较大,只要有了训练样本,适当降维和清洗数据,分类器是可以自动发现样本中的特征的,此所谓有监督机器学习。