单测点与多测点
根据测点数量,参数可以分为单测点参数、双测点参数和多测点参数(多于2个测点)。如果将一个参数的多个测点看作是具有相同的测量条件和可信赖度的,那么这些测点就是等精度数据,可以看作是多次重复的测量,是准静态的1。
单测点参数的异常点检测方法双测点可以按照单测点进巧检测后取均值。支持向量回归机算法中的结构风险函数具有良好的平滑能力,从整体上考虑回归曲线的平滑性,不倾向于消除个别回归误差大的数据点,通过不敏感损失函数f来控制数据集中的异常数据对模型整体回归效果的影响,这就使得回归值与异常数据之间的残差十分明显,便于异常点的检测。
拉依达准则不能检验样本量较小的情况,而且要求被检验数据序列服从正态分布。在对参数进行预测的回归分析中,实测值与预测值的误差分布满足正态分布。另外由于中位数相对平均数鲁棒性好,不易受到异常点的影响,以中位数误差和中位数绝对偏差代替原来的误差和标准差提高算法鲁棒性。仿真函数验证采用函数对修正的拉依达准则进行仿真验证。添加随机误差的样本曲线,以及基于含有随机误差的样本建立支持向量机预测模型得到的预测值。通过对比可以看出,支持向量机回归预测的预测值曲线与真实值曲线吻合较好,预测值受异常点影响较小。
多测点参数的异常点检测方法狄克逊准则、肖维勒准则、T检验法、F检验法、拉依达准则不适合检验小样本量的情况,而格拉布斯准则可用于较少数据的异常检验。
传统Grubbs准则基于平均数及标准差的格拉布斯准则是典型的基于参数统计的异常点检测方法。格拉布斯准则是以正态分布为前提的,理论严谨,使用方便。
改进的Grubbs准则中位数绝对偏差最早是由Hampel提出的,并且MAD完全不受样本大小的限制。因此基于中位数及中位数绝对偏差的的统计量也适合小样本数据。rousseeuw和Verboven在文献中指出小样本可以是n≥3。若在一个符合正态分布的数列中,出现少数异常数据干扰的情况下,中位数的鲁棒性高于平均值,因此以中位数和中位数绝对偏差改进Grubbs准则可提高准则的鲁棒性和稳健性。
单测点与多测点光谱法单测点光谱单测点光谱建立脐橙糖度和酸度的预测模型,把第一组的的脐橙样品作为校正集合,第二组作为预测样品集合,选择测量部位1作为单测量的研究位置,第一组60个样品总共60个光谱数据,第二组20个样品有20个光谱数据。每组样品的每个位置的光谱数据、糖度和酸度值都按照标号统一保存,以方便为多测点平均光谱的评判提供精确的数据。用手持式糖度计WYT-4型和手持式PH计PHSJ-4A型,按照国家标准分别测出每个脐橙样品在测量部位1处的糖度和酸度,作为单测点样品糖度和酸度的实际值,分别建立光谱数据和糖酸度实际值的偏最小二乘法(PLS)模型,用建立的模型来预测第二组的样品的糖度和酸度,并与第二组每个脐橙样品的糖度和酸度的实测值相对比,第二组每个脐橙样品的糖度和酸度用单样品的糖度和酸度表示。
多测点平均光谱多测点平均光谱建立脐橙糖度和酸度的偏最小二乘法(PLS)预测模型,首先把第一组的60个样品作为校正集,第二组的20个样品作为预测集合。第一组的每个脐橙样品在3个测量部位分别测量10次,这样每个脐橙样品就有30个光谱数据,然后求30个光谱数据的平均值就是该样品的光谱数据。第二组每个脐橙样品的光谱数据和单测点取法类似,在此不多做介绍。用校正集每个脐橙的多测点的平均光谱数据与每个脐橙样品整体的糖度和酸度实际测量值建立偏最小二乘法(PLS)预测模型,用预测模型来预测第二组脐橙样品的糖度和酸度值,并与第二组每个脐橙样品的糖度和酸度的实测值相比较。最后在对比分析单测点光谱与多测点平均光谱分别建立的糖度和酸度偏最小二乘法(PLS)模型精度的差异性2。