净分析物预处理法
净分析物预处理法(Net Analyte Preprocessing,NAP)是一种较新的光谱预处理方法,该法由Goico-echea等人(2001年)首先提出,它基于Lorber的净分析物信号(Net Analyte Signal,NAS)理论,主要用于剔除光谱中与待测品质无关的信息。
净分析物预处理基本原理
净分析物预处理法的基本思想是:利用数学空间正交的方法,将原始光谱矩阵中待测组分的净分析物信号提取出来,从而达到滤除无用信息的目的。
在农产品品质的近红外光谱无损检测中,偏最小二乘法(partial least square,PLS)常被用于建立预测模型。但是由于农产品是非常复杂的生物体,加上近红外区的谱带复杂、重叠多,因此农产品光谱中与待测品质不相关的信息必定会对待测品质的近红外预测产生影响,特别是会造成偏最小二乘预测模型的主因子数增多,使模型变得过于复杂。为了解决这一问题,常采用二阶导数光谱、小波阈值法等对近红外光谱进行预处理1。
简化苹果糖度预测模型苹果光谱的净分析物预处理原理如下:设苹果校正集的近红外原始光谱矩阵为X(I×J,I为测试集样本数,J为波长数),该矩阵中的某一元素xij(i=1,2,…,I;j=1,2,…,J)的含义是第i个样本在第j个波长处的反射率,苹果糖度实测值向量为y(I×1)。X可以表示为两个部分的和,其中一部分是与糖度相关的信息,另一部分是与糖度不相关的所有干扰信息(包括来自苹果内部的以及来自环境的干扰信息)的综合,即X=XSC+X-SC(1)
式中,XSC表示苹果光谱中与糖度相关的信息,X-SC则表示光谱中糖度之外的所有其他干扰信息的综合。
寻求一个与X-SC正交的J×J阶矩阵FNAP(即X-SCFNAP=0),使式(1)两边同乘以FNAP后有XFNAP=XSCFNAP成立,这一步为NAP算法的关键步骤。矩阵FNAP的求解过程为:
(1)原始光谱矩阵X向糖度实测值向量y作正交投影得到X-SC=[I-y(yTy)-1yT]X,式中I为I×I阶单位矩阵;
(2)求平方矩阵[(X-SC)TX-SC]的特征向量矩阵U(为J×A阶矩阵,U中的每一列为一个NAP因子);
(3)构造矩阵FNAP=I-UUT(式中I为J×J阶单位矩阵)。然后即可求出经A个NAP因子处理后的光谱X*SC=XFNAP=X(I-UUT),
式中X*SC为经净分析物预处理法处理后得到的光谱矩阵,即糖度的净分析物信号矩阵。预测集苹果光谱XUN的净分析物预处理按式X*UN,SC=XUN[I-UUT]进行,X*UN,SC为预测集苹果光谱中糖度的净分析物信号矩阵。
绿茶中儿茶素的近红外光谱定量分析绿茶中含有大量的儿茶素,具有抗癌防癌和抗氧化等功效,正受到越来越多的关注。绿茶中儿茶素类物质成分复杂,数量与种类繁多,其中最主要的三类儿茶素分别是表没食子儿茶素没食子酸酯(epigallocatechin gallate,EGCG)、表儿茶素没食子酸酯(epicatechin gallate,ECG)和表没食子儿茶素(epigallocatechin,EGC)。它们也是形成茶汤苦涩、收敛和鲜爽等滋味的重要因子。随着绿茶消费量的增加,绿茶的品质质量的控制得到了更多的关注,其中,EGCG、ECG和EGC含量通常是衡量绿茶品质的重要参数。
绿茶中儿茶素含量的测定通常情况下采用高效液相色谱和毛细血管电泳等理化检测方法,这些方法费时费力,而且属于破坏性检测,不适合绿茶流通过程中的快速检测。近红外光谱检测技术由于具有快速、无损以及可以同时检测多种品质的优点,近年来越来越广泛地被应用到茶叶及其它农产品品质的检测中。但采集得到的原始光谱数据常含有因外界环境不稳定造成的噪音信息以及与待测品质不相关的冗余信息等,在模型的校正过程中,这些信息的介入势必会增加模型的复杂程度,影响模型的精度和稳定性。常规的光谱数据预处理方法有标准正态变量(SNV)、多元散射校正(MSC)、一阶导数(FOD)和二阶导数(SOD)等,它们可以滤除因仪器或外界环境不稳定造成的噪音信号或基线漂移,但是这些方法不能消除光谱信号中与待测成分不相关的冗余信息。前期研究工作发现,在利用近红外光谱技术检测绿茶中儿茶素含量时,进行常规预处理后,建立的PLS模型往往过于复杂(模型的主成分因子数过高),影响了模型的稳定性。鉴于此,本研究尝试采用一种新的光谱数据预处理方法——净分析物预处理法(net analyte preprocessing,NAP)对绿茶的近红外原始光谱进行预处理。NAP通过空间正交的途径最大程度地剔除了原始光谱中与儿茶素含量不相关的信息,并结合PLS方法建立EGCG、ECG和EGC含量的预测模型,以期获得较为理想的简化模型2。