版权归原作者所有,如有侵权,请联系我们

[科普中国]-归纳统计学

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

统计学按照发展阶段和侧重点不同,可分为描述统计学和归纳统计学,归纳统计学又称推断统计学。描述统计学是阐述如何对客观现象的数量表现进行计量、搜集、整理、表示、一般分析与解释的一系列统计方法。其内容包括统计指标、统计调查、统计整理、统计图表、集中趋势测度、离散程度测度、统计指数、时间数列常规分析等理论和方法。归纳统计学主要阐述如何根据部分数据(样本统计量)去推论总体的数量特征及规律性的一系列理论和方法,其主要内容包括概率与概率分布、参数估计、假设检验、抽样调查、方差分析、相关与回归分析、统计预测、统计决策等。归纳统计是借助抽样调查,从局部推断总体,以对不肯定的事物做出决策的一种统计。有总体参数估计假设检验两种。前者以一次性抽样实验为依据,对整个总体的某个数字特征做出估计。后者则是对某种假设进行检验,根据计算结果推断所做的假设是否可以接受。如平均数、标准差、相关系数、回归系数等特征的总体估计及差异显著性检验。归纳统计的理论基础是概率论,它更多地需要借助抽样理论与方法1 。一般来说,描述统计学是归纳统计学的基础,归纳统计学是描述统计学的拓展,是现代统计学的核心2。

基本介绍归纳统计是在随机抽样的基础上,根据部分资料(数据)推断总体的方法,也即利用样本资料对抽出样本的总作出推论的方法。它也是数理统计方法的基本支柱之一。

例如,某城市有一万户居民(总体),我们抽出200户(样本)来研究他们的生活水平,根据这200户的情况来推断整个城市居民的生活水平。

从样本中计算出来的数值,通常称为统计值;在总体中的数值,则称为参数值。推论统计就是运用样本的统计值来推断总体的参数值。因此,如何抽取样本,样本的可靠程度,分析可靠程度的保证及进行假设检验,都是推论统计需要研究的问题。

归纳统计分为两大类:(1)参数估计,就是根据一个随机样本的统计值来估计总体参数值。(2)假设检定,在逻辑上与参数估计有点不同,它是首先假设总体的情况是怎样的,然后以一个随机样本的统计值来检验这个假设是否正确。可见,参数估计与假设检定虽然都是推论统计,但在逻辑上略有不同。前者是先看样本情况才问及总体情况;后者则先假设总体情况,然后才进行抽样和分析样本资料。在社会学研究中,大多数推论统计都是首先成立假设,然后检验假设,所以经常采用假设检定这类推论统计的方法3。

参数估计参数估计就是根据抽样结果,科学地估计总体参数值的大小和范围。参数估计有两种方法:①点估计。利用样本统计单值直接估计未知总体参数的方法。如从某市抽取100名少年犯人作为样本,计算出他们的年龄均值为16.5岁,然后将该值作为全市少年犯人的平均年龄。这种以点代面的估计方法即为点估计法。点估计法一般只用来对总体参数进行粗略的估算,由于它不能说明估计的准确程度和可靠度,因此很少使用。②区间估计。在一定的把握程度上对总体参数可能落入的一个数值范围做出估计的方法。如计算出某市少年犯人的平均年龄可能在16-17岁之间的范围内,这种估计总体参数在一定区间的推断方法就是区间估计法。由于有抽样误差的存在,区间估计会受样本统计值和样本误差的影响而发生波动,因此需判断估计成功的把握程度。把握程度可用显著水平的概念来表示。所谓显著水平,是指根据概率计算的当样本与总体没有真实差异时出现实得误差的最大可能性。如对某市少年犯人重复抽样100次,如果有96次或是91次所作的区间估计包含了少年犯人的平均年龄在16-17岁之间,则进行一次估计成功的概率为96%或91%,即显著水平达到4% (0. 04)或9% (0. 09),也就是说估计错误的可能性不超过4%或9%。按一定显著水平求得的估计区间称为置信区间。应当说明,在进行区间估计时所选定的显著水平愈高,把握程度越高。区间估计的范围也愈大;反之,把握程度则愈小,区间估计的范围也就愈小4。

假设检验假设检验是根据抽样调查统计结果在一定可靠性基础上对原来的假设作出接受或拒绝的判断。如认为“某市犯罪人员的婚姻状况以未婚为主”就是一个命题,该假设是否正确,要用从总体抽出的样本进行检验,得出承认或推翻假设的结论。因此,假设检验也只通过研究样本对事先作出的有关总体特征的假设进行检验的基本过程。

假设检验主要解决两类问题:①对总体的某些特征提出适当的假设后,利用抽样方法进行检验。检验结果有两种情况:一是检验结果与假设之间存在一定的偏差;二是检验结果与假设完全相符。若是第一种情况,一定要了解偏差是真的表明假设错误,还是由于抽样误差造成的;若是第二种情况,也不能贸然说假设是正确的,也可能是由于抽样误差造成的。②对从两组或两组以上样本计算出的统计值之间的差异进行显著性考验。统计值之间的差异有可能是它们所代表的不同总体的总体参数的差异,也有可能是同一总体但由于抽样误差造成的,因而要进行显著性考验。在显著性考验中,如果检验结果差异显著,就可推断这种差异代表总体参数之间的差异,否则样品可能来自同一总体,或者认为总体参数间无真实差异,或者也可认为样本统计值的差异只是由于抽样误差造成的。在此应当注意的是,任何时候都不能凭样本统计值之间的差异,轻率得出它们代表的总体的参数间存在差异的结论4。

本词条内容贡献者为:

尚华娟 - 副教授 - 上海财经大学