数据质量控制技术是指采用一定的技术措施,使数据在采集、存贮、传输中满足相关的质量要求。1
简介数据质量控制主要是实时数据质量控制和延时数据质量控制两种。实时数据质量控制是延时数据质量控制的基础,实时数据质量控制做得好就能减轻延时数据质量控制的工作。两种数据质量控制所控制的数据有一定的差别,所以采取的数据质量控制方法也不同,然而这两种数据质量控制过程基本上是一致的。
数据质量控制方法数据质量控制方法的研究是数据质量控制的重点,控制方法的好坏直接影响到数据质量。目前,数据质量控制经常用的方法有极值控制、莱茵达检验法、狄克逊检验法、格拉布斯检验法以及Cochran 检验法等。
极值控制方法极值控制方法是根据各种海洋环境要素的物理特性、统计经验给定各个要素的极大值和极小值。极值控制是普遍采用、简单有效的方法,能够有效地检验出极端异常的数据。然而极值控制方法不能很好地检验那些差异不是很大的异常数据,这就需要更加精准的控制方法来控制。
3δ 检验法3δ 检验法又称莱因达检验法。根据误差理论,一般情况下随机误差δ 服从正态分布。δ 为标准差,一般是未知的,通常用贝塞尔公式算得S 代替δ,以x代替真值。
狄克逊(Dixon)检验法狄克逊准则有一假定条件,那就是设定观测数据总体是正态分布的,取1 个样本x1,x2,…,xn,将观测数据按大小顺序排列为x'1≤x'2≤x'3≤…≤x'n,检验高端值和低端值是否异常有4 种方法。
狄克逊认为对不同的测量次数或不同的数据量,应选用不同的统计。狄克逊方法本身说明该方法适合数据量比较少的情况,对于数据量比较大的数据一般采用其他方法;而且这种方法公式比较多,判别过程相对比较繁琐。
格拉布斯检验法(Grubbs)格拉布斯准则是根据顺序统计量的某种分布规律提出的一种判别标准。
Cochran 检验法Cochran 检验法检验完成以后还需要对有异常数据的那组数据采用其他的质量控制方法,所以这种方法适用于数据量比较大的数据。1
数据质量控制过程根据海洋站观测平台的实际观测,数据质量控制过程可以分为数据采集与传送、数据转化、根据采集到的数据特点对数据质量控制方法的选择和处理,以及数据质量控制结果的显示及存储等。
1、 数据采集与传送
数据采集与传送是数据质量控制的基础,数据采集主要是读取观测仪器的实时数据或延时数据。现在的数据采集一般是观测仪器自动记录观测数据,这样可以消除部分人为造成的读数误差。数据传送过程中可能会带来部分的传输误差,一般造成非码错误,这就要求接收数据的时候应该对数据进行非码检验,保证不必要数据的后期处理。
2、 数据转化
传输的数据往往不一定是我们所认知的数据形式或者数据量纲,这就要求对其进行数据转换。转换以后的数据才能更加清晰地反应当前海洋环境的状况以及趋势。
3、 选择适当的数据质量控制方法进行数据质量控制选择数据质量控制方法是海洋站数据质量控制过程中的核心。为了选择合适的质量控制方法,首先必须对数据本身的特点进行分析,一般有数据正态性判断、数据误差正态性判断以及数据量的大小,甚至数据分组处理等等。目前常用的数据质量控制方法有极值检验、一致性判断、递增性判断、3δ 方法检验、格拉布斯检验以及狄克逊检验等。
4、 数据质量控制结果显示以及存储
数据质量控制结果一般通过散点图、拟合图、点线图等来分析当前海洋环境的状况以及趋势。数据质量控制的目的不单是为了显示当前的海洋环境状况,还要数据质量控制结果的存储以达到通过数据积累了解海洋规律。
以上的4 个阶段是对实时数据质量控制过程的简单概括,延时数据质量控制是在实时数据质量控制的基础上进行的更加深入的数据处理过程,不过基本的数据质量控制过程只有上述的3,4 两个过程。1
本词条内容贡献者为:
郭亮 - 副教授 - 中国海洋大学