可疑数据的取舍
与正常数据不是来自同一分布总体、明显歪曲实验结果的测量数据,称为离群数据。可能会歪曲实验结果,但尚未经检验断定其是离群数据的测量数据,称为可疑数据。
在数据处理时,必须剔除离群数据以使测量结果更符合客观实际。正确数据总有一定的分散性,如果人为地删去一些误差较大但并非离群的测量数据,由此得到精密度很高的测量结果并不符合客观实际。因此对可疑数据的取舍必须遵循一定的原则。
测量中若发现明显的系统误差和过失,则由此产生的数据应随时剔除。而可疑数据的取舍应采用统计方法判别,即离群数据的统计检验。检验的方法很多,现介绍最常用的两种。
同一样品同一组分的多个数据中,在相同条件下进行多次重复分析测试得到的数据,或在不完全相同条件下进行再现分析测试得到的数据,或在标准物质进行分析定值中得到的多个实验室多个分析方法的数据,也有在分析方法精密度试验中得到的多个实验室的数据。在这些数据称为可疑数据或可疑值,对可疑数据的取舍的方法有技术性的和统计性的。
取舍方法(一)技术性的取舍
从采用的分析方法、分析人员在操作过程中发现异常现象、分析仪器运转是否正常、计算差错、记录差错,环境影响等查找原因,如果确实证明该可疑数据确系上述原因引起的,则认为可疑值为离群数值,并可以作技术性剔除,否则应保留。
(二)统计检验的取舍
在无确切的技术性的原因将可疑数据剔除时,则需进一步用统计性的法则进行检验和取舍。对测定值或测量值进行统计检验的目的是为了判断所测数据是否来自同一总体,是否存在应剔除的离群值。统计性检验可疑数据的法则有“4d”检验法、拉依达检验法、“Q”检验法、格拉布斯(Grubbs)检验法、狄克逊(Dixon)检验法和科克伦(Cochran)检验法等,其中最常用的是后三种。在GB6379-86《测试方法的精密度通过检验室间试验确定标准测试方法的重复性和再现性》中指出,格拉布斯检验和狄克逊检验,都必须分别独立进行。格拉布斯检验只进行一次。两种检验结果分别记录在册。如只发现一个异常值,则取格拉布斯所得的结果;如发现多个异常值,则取狄克逊检验所得的结果。1