版权归原作者所有,如有侵权,请联系我们

[科普中国]-分层抽样法

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

概述

分层抽样法,也叫类型抽样法。就是将总体单位按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位。分层抽样的特点是:由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。该方法适用于总体情况复杂,各单位之间差异较大,单位较多的情况。

分层抽样的具体程序是:把总体各单位分成两个或两个以上的相互独立的完全的组(如男性和女性),从两个或两个以上的组中进行简单随机抽样,样本相互独立。总体各单位按主要标志加以分组,分组的标志与关心的总体特征相关。例如,正在进行有关啤酒品牌知名度方面的调查,初步判别,在啤酒方面男性的知识与和女性的不同,那么性别应是划分层次的适当标准。如果不以这种方式进行分层抽样,分层抽样就得不到什么效果,花再多时间、精力和物资也是白费。

分层抽样与简单随机抽样相比,往往选择分层抽样,因为它有显著的潜在统计效果。也就是说,如果从相同的总体中抽取两个样本,一个是分层样本,另一个是简单随机抽样样本,那么相对来说,分层样本的误差更小些。另一方面,如果目标是获得一个确定的抽样误差水平,那么更小的分层样本将达到这一目标。

分层抽样又称分类抽样或类型抽样。将总体划分为若干个同质层,再在各层内随机抽样或机械抽样,分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。分层抽样根据在同质层内抽样方式不同,又可分为一般分层抽样和分层比例抽样,一般分层抽样是根据样品变异性大小来确定各层的样本容量,变异性大的层多抽样,变异性小的层少抽样,在事先并不知道样品变异性大小的情况下,通常多采用分层比例抽样。1

样本数各层样本数的确定方法有3种:

①分层定比。即各层样本数与该层总体数的比值相等。例如,样本大小n=50,总体N=500,则n/N=0.1 即为样本比例,每层均按这个比例确定该层样本数。

②奈曼法。即各层应抽样本数与该层总体数及其标准差的积成正比。

③非比例分配法。当某个层次包含的个案数在总体中所占比例太小时,为使该层的特征在样本中得到足够的反映,可人为地适当增加该层样本数在总体样本中的比例。但这样做会增加推论的复杂性。

步骤在调查实践中,为提高分层样本的精确度实际上要付出一些代价。通常,现实正确的分层抽样一般有三个步骤:

首先,辩明突出的(重要的)人口统计特征和分类特征,这些特征与所研究的行为相关。例如,研究某种产品的消费率时,按常理认为男性和女性有不同的平均消费比率。为了把性别作为有意义的分层标志,调查者肯定能够拿出资料证明男性与女性的消费水平明显不同。用这种方式可识别出各种不同的显著特征。调查表明,一般来说,识别出 6 个重要的显著特征后,再增加显著特征的辨别对于提高样本代表性就没有多大帮助了。

第二,确定在每个层次上总体的比例(如性别已被确定为一个显著的特征,那么总体中男性占多少比例,女性占多少比例呢?)。利用这个比例,可计算出样本中每组(层)应调查的人数。

最后,调查者必须从每层中抽取独立简单随机样本。

应用总体中赖以进行分层的变量为分层变量,理想的分层变量是调查中要加以测量的变量或与其高度相关的变量。分层的原则是增加层内的同质性和层间的异质性。常见的分层变量有性别、年龄、教育、职业等。分层随机抽样在实际抽样调查中广泛使用,在同样样本容量的情况下,它比纯随机抽样的精度高,此外管理方便,费用少,效度高。

分层抽样是将总体按照一定标志分成若干层,分别从各层中抽检一定数量样本,最后汇总推算所需的总体估计量的一种统计抽样技术。在变量抽样税务稽查中合理地运用分层抽样法,可以提高抽样的精确度,减少需要抽查的样本。在运用分层抽样法时,需要对总体进行重新组织整理,计算工作复杂。因此,只有当被查总体中大部分项目(的金额)分布均匀,少数项目属于高金额或低金额之类的异常项目时,运用分层抽样法才有意义。

运用分层抽样税务稽查方法时,各层样本抽查方法是相对独立的,可以是随机数表法,也可以是系统选样法。分层抽样法研究的重点,一是如何计算总的样本规模和如何将样本在各层进行分配;二是如何将各层检查结果汇总推算总体估计量。

1.样本规模的确定及在各层间的分配

在分层抽样法中,样本规模仍然按照总体计算,然后再把它分配到各层。分层抽样法中样本规模的确定,需要首先了解各层子总体容量及其标准差。

2.各层检查结果的汇总

决定了各层样本规模之后,税务稽查人员即可按照计划的抽样组织方式和税务稽查检查大纲开始实施抽样税务稽查。经过对选取样本的检查计算,可以得到各层平均值(或平均差错额)和实际样本标准差等项资料,在此基础上,税务稽查人员需要将它们汇总,形成对总体的点估计和区间估计。

与多阶抽样关系联系多阶段抽样区别于分层抽样,其优点在于适用于抽样调查的面特别广,没有一个包括所有总体单位的抽样框,或总体范围太大,无法直接抽取样本等情况,可以相对节省调查费用。其主要缺点是抽样时较为麻烦,而且从样本对总体的估计比较复杂。

将总体分为若干个一阶单元,如果在每一个一阶单元中,都随机抽取部分二阶单元,由这些二阶单元中的总体基本单元组成的样本,在抽样的方式上,就相当于分层抽样;如果在全部的一阶单元中,只抽取了部分一阶单元,并对抽中的一阶单元中的所有的基本单元都做全面调查,这就是整群抽样。

因此,分层抽样实际是第一阶抽样比为100%时的一种特殊的两阶抽样;而整群抽样实际上是第二阶抽样比为100%时的一种特殊的两阶抽样,故也称单级整群抽样。

主要区别多阶抽样与分层抽样的主要区别在于:

一、分层抽样是对总体中的每个一级样本群体进行全面入样,再对所有的样本进行抽查;而两阶抽样则把总体中所有的群体视为一阶单元,对这些一阶单元进行抽样,将抽出的样本再次进行抽样(两次都不是进行全面的调查),产生两级样本,最后综合估算出总的一级样本指标。

二、整群抽样是对总体中抽取的每个样本群体所包含的基本单元进行全面调查;而两阶抽样则把总体中所有的群体视为一阶单元,对每一个被抽中的一阶单元所包含的二级单元(即基本单位),不是进行全面的调查,而是再进行一次抽样调查(也称抽子样本)。即两阶抽样,产生两级样本,最后综合估算出总的一级样本指标。至于在综合估算的方式方法上,两阶抽样与整群抽样也是极其相似的,只不过前者为就被抽一级单元的样本指标进行综合估算,后者为就被抽样群体单元的全体指标进行综合估算。2

分层比例抽样分层比例抽样是指按各个层的单位数量占调查总体单位数量的比例分配各层的样本数量的。在分层抽样中,采用分层比例抽样可以提高样本的代表性,及对总体数量指标的估计值的确定,避免出现简单随机抽样中的集中于某些特性或遗漏掉某些特性。