[科普中国]-十分之一的公民具备科学素养，没被测试的我是不是……-

近日，中国科学技术协会（后文简称“科协”）发布了第十一次中国公民科学素质抽样调查结果。调查结果显示，2020年公民具备科学素质的比例达到10.56%，圆满完成了《十三五规划》提出的，2020年“公民具备科学素质的比例超过10%”的目标任务。

在为国家的公民科学素质水平进步感到欣喜的同时，有的小伙伴也就纳了闷了：“我老老实实在家待着，国家啥也没问过，咋就知道我有没有科学素质了呢？难道是调查人员有特异能力？”

要解开这个疑惑，最核心的就是了解这个“10.56%”是怎么来的！

“10.56%”背后的统计设计

为响应《中国科学技术普及法》，2016年，科协制定了衡量公民科学素质水平的《中国公民科学素质基准》（后文简称“《基准》”）。

《基准》将基本科学技术知识与能力分为了26条基准，132个基准点，在此基础上得到了由500道判断、选择题组成的题库。科协通过一种叫做“抽样调查”的方式，随机选取一部分公民进行问卷调查。每次测评时，根据考纲中每一部分的比例，随机抽取50道题目，得到最终的调查问卷。50道题每题2分，能答对30道题目及以上，视为具备科学素质。根据这部分公民中，问卷显示具备科学素质的公民比例，从而推测出全部公民具备科学素质的比例。

大纲——问卷——测试人

（图片来源：作者原创）

问卷中的题目，大体上是由科学的方法论、细分学科的基础知识以及科学的生活常识三个部分组成的。

科学的方法论，包括对世界的科学认知态度、系统性的分析方法，科学探究的精神，可持续发展的观念等内容。细分的学科，包括数学、物理、化学、天文、地理、生物六门学科。**科学的生活常识，**包括生理、医学、饮食、出行、用电、农业、劳动、生产、急救、避险、应对环境污染共11个方面。这些内容和知识点涵盖了自然科学的大部分内容，组成的问卷也可以很好地反映被抽查者的科学素质水平。

抽样调查——省时省力的数据收集法

看到这，有的朋友又会有疑问： “衡量的是被抽查者有没有科学素质，我又没做问卷，国家咋就知道我有没有科学素质了呢？”

这个问题，就归结到科协使用的一种叫做“抽样调查”的方法上了。

抽样调查，指的是从总体中抽取一部分人进行调查，根据调查部分人群所得结果，从而估计总体的比率分布。

抽样调查示意图

（图片来源：作者原创）

比如一所大学可能有几万名大学生，我们想了解大学生中，读过《浮士德》这本书的人的比例。

一种方法是我们把所有的大学生都问一遍，逐一确认有没有读过这本书。这种方法得到的结果是绝对精确的，但是费时费力，成本很高。如果想将全国14亿人逐一调查一遍，那就基本是一件不可能的事情了。

这时候可选的另一种做法，是抽取一部分人进行调查。假如这所学校有2万名学生，我们根据学号随机抽取其中的200人进行调查，调查得到的读过《浮士德》的人数有60人，我们就根据这个得到了一个估算的比例30%。进而根据这个估算的比例，我们还可以估算出整个大学中，读过《浮士德》的学生大约为6000人。

这种方法优点是省时省力，成本低，缺点是精确性没有逐一调查那么高。但是当总样本量和抽样调查的样本量都很大时，一般得到的比率不会偏出太多。

“大数定律”——抽样调查背后的数学魔咒

为啥抽样调查得到的比率不会和实际的比例相差太多呢？这就涉及到了统计学中一个非常神奇的定律——“大数定律”。

**大数定律，是指当次数重复多之后，随机事件会按照比率发生。**抛一枚质地均匀的硬币200次，正面朝上的次数会落在100附近；扔一枚骰子6000次，出现1的次数会落在1000附近。当我们重复足够多次之后，事情总是“冥冥之中自有天意”，倾向于按照比例发生。这种现象，我们就叫做“大数定律”。

抛硬币统计次数

（图片来源：作者原创）

那么大数定律，就是单纯地观察出的“玄学”吗？其实不然，大数定律可以通过概率计算，推导出来。比如我们连续抛硬币200次，次次都向上的概率是1比上2的200次方。2的200次方，比地球上的原子数量还要多，基本上尝试到宇宙毁灭都不太可能出现这种情况。而正面朝上的次数在80到120次之间的概率，则高达99.52%！概率计算告诉我们，抛硬币的次数足够多，正面朝上的次数就“大概率”落在一半附近。

**我们在进行抽样统计时，只要抽取的样本足够多，根据大数定律，我们就会知道，样本的对应比例，一定落在总体的对应比例附近。**这也就是抽样调查能通过部分人员的调查结果得到总体的调查结果，“窥一斑而见全身”的原因。

“随机性”——抽样调查的最大陷阱

介绍了这么多抽样调查的优点和原理，抽样调查是不是一定准确呢？

其实，设计抽样调查的时候，也可能存在很多小陷阱，导致我们的统计结果存在偏差。这些小陷阱存在的原因，就出现在抽样调查要求的“随机性”上面。

而导致随机性出问题，最常见的情况就是问卷的分发方法或者问题设计存在瑕疵。

我们举一个最简单的例子，我想要抽样调查县城公民持有智能手机的比例，然后选择通过手机平台发放问卷。这时候调查得到的结果，就必然是接近100%持有智能机。毕竟没有智能机，怎么填写手机问卷嘛！那这样得到的结果，就必然和实际情况存在偏离。这就是调查方式本身存在瑕疵，对问卷结果进行了筛选，导致的偏差情况。

有的读者可能会觉得，这个例子中由问卷分发带来的问题，只要设计问卷的人思维正常，稍加思考，就可以避免，但在实际问卷调查中遇到的问题，可能藏得很深。

比如我们想调查清华大学学生中男生的比例，我选择站在清华大学校园内的某路口，记录一个个走过学生的性别，从而统计得到最终的比例数据。这个方法听着很棒，完全实现了随机性。

但这个方法也存在统计误差，大学生中有一群体经常“大门不出二门不迈”，便是所谓“宅男宅女”，这一部分群体出现在路口的概率会比其他学生低不少。假定宅男宅女这一群体，男生的比例较高，那么这就导致这种随机抽样其实得到的男生比例会比实际情况偏低。

调查方式偏差

（图片来源：作者原创）

因此，抽样调查进行方案设计的时候，应根据总体特征尽量选择比较丰富的调查方法，降低调查方法设计对统计结果的影响。

科协在进行我国公民科学素质抽样调查的时候，便选择现场问卷调查、网络调查、干部安排抽查等多种方法，保证最终问卷能随机地发到不同地区、不同职业的各色人群手中。

会对随机性产生影响的另一个问题，是问卷的问题设计。由于问题设计可能存在瑕疵，导致被调查者出现明显的倾向性，也会影响随机抽样的调查结果。

例如，我想调查某县城的犯罪率，我选择直接在问卷上提问“你有没有犯罪过？”。那真的犯罪过的人，多半会选择不填写问卷，或者撒谎。这就导致抽样调查得到的犯罪率会大幅低于实际值。

而科协设计的问卷，一方面本身注意问题本身的倾向性，不会出现使人尴尬或不愿回答的问题；另一方面，科协还会通过一些类似小礼品的奖励，鼓励被调查者积极回答问卷，从而获得更为均衡全面的数据。

通过这些扎实的准备和用心的设计，科协设计好问卷和方法，最终用抽样调查的方法，做到了让大家“人在家中坐，数据天上来”。

全民科学素质行动作为一项全社会参与的基础性社会工程，即便我们没有成为被选中的样本，但是我们仍是不断奋进，终身学习的总体。唯有每个人在知识上、思想上、行动上，用科学的方法、思维处理实际问题，参与公共事务，才能让这“十分之一”的统计数字，真正象征着千千万有知识、有科学素质的中国公民！