版权归原作者所有,如有侵权,请联系我们

[科普中国]-描述统计学

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

简介

描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据1(data tabulation),并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation),进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。描述统计学内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。

分析描述统计是来描绘(describe)或总结(summarize)的观察量的基本情况的统计总称。描述统计学研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。

透过对于数据资料的进行图像化处理,将资料摘要变为图表,以直观了解整体资料分布的情况。通常会使用的工具是频数分布表(frequency distribution table)与图示法,如多边图(polygon)、直方图(histogram,barchart)、圆形图(piechart)、散点图(scatterplot)等。

透过分析数据资料,以了解各变量内的观察值集中与分散的情况。运用的工具有:集中量数(measure of central location),如平均数(Mean)、中位数(Median,Md)、众数(Mode,Mo)、几何平均数(Geometric mean,GM)、调和平均数(Harmonic mean,HM)。与变异量数(measure of variation),如全距(range)、平均差(average deviation,AD)、标准差(standard deviation,SD)、相对差、四分差(quartile deviation)。

在推论统计中,测量样本的集中量数与变异量数都是变量(parameter)的不偏估计值,但是以平均数、变异数、标准差的有效性最高。

数据的次数分配情况,往往会呈现常态分配。为了表示测量数据与常态分配偏离的情况,会使用偏态(skewness)、峰度(kurtosis)这两种统计数据。

为了解个别观察值在整体中所占的位置,会需要将观察值转换为相对量数,如百分等级(percentage rank,PR),或标准分数(Z-score,T-score)。

数值方法数值方法主要涉及利用数据来描述统计数据的位置、离散程度、形态和相关程度。

当数据中有异常值时,使用中位数作为中心位置的度量比平均数更合适。有时,在有异常值的情况下,我们使用另外一种度量方法——调整平均数(trimmed mean)。 删除数据中最大的和最小的一些数据,然后对剩下的数据求平均值,得到的就是调整平均数。

对比描述统计学和推断统计学的划分,一方面反映了统计方法发展的前后两个阶段,同时也反映了应用统计方法探索客观事物数量规律性的不同过程。

统计研究过程的起点是统计数据,终点是探索出客观现象内在的数量规律性。在这一过程中,如果搜集到的是总体数据(如普查数据),则经过描述统计之后就可以达到认识总体数量规律性的目的了;如果所获得的只是研究总体的一部分数据(样本数据),要找到总体的数量规律性,则必须应用概率论的理论并根据样本信息对总体进行科学的推断。

显然,描述统计和推断统计是统计方法的两个组成部分。描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。由于在对现实问题的研究中,所获得的数据主要是样本数据,因此,推断统计在现代统计学中的地位和作用越来越重要,已成为统计学的核心内容。当然,这并不等于说描述统计不重要,如果没有描述统计收集可靠的统计数据并提供有效的样本信息,即使再科学的统计推断方法也难以得出切合实际的结论。从描述统计学发展到推断统计学,既反映了统计学发展的巨大成就,也是统计学发展成熟的重要标志。