版权归原作者所有,如有侵权,请联系我们

[科普中国]-无信息变量消除法

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

无信息变量消除法研究背景

化学计量学的多元校正方法中,偏最小二乘法(partial least squares,PLS)是目前使用得最多的方法,它很容易用于处理数据量很大的光谱数据,提取相关的信息,建立一个可靠的模型,不过这个模型很复杂。传统观点认为PLS具有较强的抗干扰能力,对噪声不敏感,因此在PLS建模前不需要对光谱数据进行特征提取。随着对PLS的深入研究和应用,最近人们已经认识到有效的特征提取能够很大程度提高模型的预测能力和简化模型。

目前,波长变量筛选的方法主要有相关系数法,逐步回归法,无信息变量消除法(UVE),遗传算法(genetic algorithm,GA)等,其中无信息变量消除法的研究和应用在国内的报道较少。无信息变量消除算法是新的变量筛选方法,该算法最初由Centner等人提出来,并用于NIR光谱数据,其目的是为了减少最终PLS模型中包含的变量数,降低模型的复杂性,改善PLS模型,还与其它相关方法进行了比较,UVE方法得到的结果的SEP最小1。

无信息变量消除法原理无信息变量消除法是基于分析PLS回归系数b的算法,用于消除那些不提供信息的变量。在近红外光谱法的PLS回归模型中,光谱矩阵X和浓度矩阵Y存在如下的关系:

Y=Xb+e

其中b是回归系数向量,e是误差向量。无信息变量消除法就是把相同于自变量矩阵的变量数目的随机变量矩阵(这里等同于噪音)加入光谱矩阵中,然后通过交叉验证的逐一剔除法建立PLS模型,得到回归系数矩阵B,分析回归系数矩阵中回归系数向量b的平均值和标准偏差(用)的商C的稳定性(或可靠性),即有如下表达式:

Ci=mean(bi)/S(bi)

其中mean(bi)表示回归系数向量b的平均值,S(bi)表示回归系数向量b的标准偏差,i表示光谱矩阵中第i列向量。根据Ci的绝对值大小确定是否把第i列变量用于最后PLS回归模型中。具体的算法如下:

(1)将校正集光谱矩阵X(n×m)和浓度矩阵Y(n×1)进行PLS回归,并选取最佳主因子数f,矩阵中的n表示样品的数目,m表示波长变量的数目,下面的也一样;

(2)人为产生一随机噪声矩阵R(n×m),将X与R组合形成矩阵XR(n×2m),该矩阵前m列为X,后m列为R;

(3)对矩阵XR和Y进行PLS回归,每次剔除一个样品的交互验证,每次得一个回归系数向量b,共得到n个PLS回归系数组成矩阵B(n×2m);

(4)按列计算矩阵B(n×2m)的标准偏差S(b)和平均值mean(b),然后计算Ci=mean(bi)/S(bi)

,i=1,2...,2m;

(5)在[m+1,2m]区间取C的最大绝对值Cmax=max(abs(C));

(6)在[[1,m]区间去除矩阵X对应Ci