版权归原作者所有,如有侵权,请联系我们

[科普中国]-遗漏值

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

遗漏值是统计人员和资料获取人员所不愿意见到的,但也是无法避免的。遗漏值的表现形式有三种:完全随机遗漏、随机遗漏、非随机遗漏。在进行敏感问题的调查时,遗漏值问题就比较突出,比如问卷中涉及了家庭收入、婚外性伴侣等问题时,许多受访者都会遗漏来避免尴尬。

定义遗漏值是统计人员和资料获取人员所不愿意见到的,但也是无法避免的。在大型的资料采集任务中,即使有非常严格的品质控制,含有缺项、漏项的记录也可能很容易的达到10%。1在处理遗漏值方面,有些建模技巧比其他通常的方法要好,比如:GRI、C5.0和APRIORI就能很好地处理在类型节点上被明确地确定为遗漏的值。2

相关名词遗漏次数遗漏的出现从发生到结束计算遗漏次数为1次,那么遗漏统计图表内的遗漏次数就是指统计期内的所有发生的遗漏次数的总和。

最大遗漏最大遗漏是指统计期内的一次连续遗漏出现的最大数值。

遗漏N次统计遗漏N次统计:统计期内所有的出现遗漏1次的次数总和,称为遗漏1次;统计期内所有的出现遗漏2次的次数总和,称为遗漏2次,其他以此类推。

最佳遗漏范围最佳遗漏范围,简单地说就是在这个区间之内某个指标遗漏终止并且反转出现的概率非常高,等于或大于80%。

遗漏值判断法首先,遗漏值的数量评估法,主要目的在检验受测者是否抗拒或难以回答某一个题目,导致遗漏情形的发生,过多的遗漏情形表示该题目不宜采用。至于遗漏人数达到多少就必须将该题删除,并没有绝对的标准,研究者必须从各题目的遗漏情况来相对比较检视,如果某一题遗漏人数显然比其他题目为多,即有详加检视的必要。

遗漏值判断法适合于设计量表之初使用,因为测验的题目尚未经过实际的施测,因此容易发现具有大量遗漏的题目。在量表发展的中后期时,题目已经经过修饰与调整,遗漏现象应不至于大量发生,即使发生了,也应属于随机性遗漏。3

表现方式完全随机遗漏完全随机遗漏是指遗漏现象完全是随机发生的,和自身或其它变数的值无关。这时遗漏值问题中处理起来比较简单的一种,可以直接将遗漏值删除,无需担心估计偏差,以便充分利用样本资讯。1

随机遗漏这种情况要严重一些,但也更加常见,它是指有遗漏值的变数遗漏情况的发生与资料集中其它无遗漏变数的值有关。此时,遗漏值不仅会引起资讯损失,还可能导致分析结果的不可信。1

非随机遗漏这是最坏的一种情形,资料的遗漏不仅和其它变数有关,也和其自身有关。这种情况下,遗漏值分析模型基本上是无能为力的,只能做一下粗略的估计。1

本词条内容贡献者为:

尚华娟 - 副教授 - 上海财经大学