[科普中国]-推论统计学-

概述

推论统计学具备归纳预测性质的数据通常使用此统计方法来处理，在20世纪20年代，R．A．Fisher的工作奠定了今天统计推论理论的基础，他的研究课题主要是从生物学(如物种学、遗传分类及其在农产品上的应用等)中提出来的。丰要说明如何归纳样本数据进而推论出母体性质，并标示出误差发生的机率。推论统计学在实际作业中应用层级相当广泛，可谓现代统计学中最重要的部分。

分类推论统计学依照母体条件的差异性又可分为“有参数统计学”(Parametric Statistics)和“无参数统计学”(Non-Parametric Statistics)。其中有参数统计学是指母体呈常态分配(Normal Distridbution)的统计推论方法；其他所有应用于非常态分配母体的统计推论方法，都称为无参数统计学。有参数统计学比无参数统计学发展得早，其经典课题有“点估计”、“区间估计”与“假设检验”等。

异同点一、描述统计学与推论统计学的同点：

两者都以概率论为理论基础，都是数理统计学，都是应用数学的一个分支，都可分为数理统计([数理]统计理论与方法)与应用统计(专业统计)两部分，都属于。研究自然与社会现象的通用科学。

二、描述统计学与推论统计学的异点：

第一、产生年代不同：一般认为描述统计学产生于二十世纪二十年代以前，以K．毕尔生为代表；推断统计学产生于二十世纪二十年代以后，以费雪为代表。一说以费雪为分界点，费雪以前为描述统计学，费雪以后为推断统计学；这两个阶段并无明确的分界时间，其发展是渐进的，不是突变的。

第二、研究特点不同：描述统计学研究如何简缩数据并描述这些数据的方法，一般包括：统计调查方法，分类原理，汇总，统计表，统计图，频数分配，时间数列，指数，相关，估计推算等。推断统计学研究如何在随机抽样的基础上推论有关总体数量特征的方法，一般包括：统计推断原上推论有关总体数量特征的方法，一般包括：统计推断原理，实验设计，估计理论，抽样调查，复变数分析，序列分析，误差理论，假设检验，决策理论等。

第三、研究样本不同：描述统计学研究大样本理论，所谓大样本即包括多数个体或多数数值的样本；推断统计学肝究小样本理论，所谓小样本即包括少数个体或少数数恼的样本。应当指出，大小或多少之分也是相对的，缺乏严格的划分标消。据多数统汁学者的意见：如果研究的是一个粮纯项目，则包含三十项以上的数值或个体的样本即可视为大样本；但也有人主张采用五十或一百为划分标准的。

第四、应用统计的性质不完全相同。描述统计学派和推断统计学派都把其统计学看作是通用科学，可以用来研究自然与社会现象；但在其应用统计方面则略有不同。描述统计学派在应用统计——生物统计、经济统计等方面，仍残留者凯特勒的实质科学的影响；推断统计学在应用统计——物理统计、田间设计、质量管理、经济预测等方面，基本上已转变为通用的方法论科学。

必要性1、在产品可靠性领域，研究某种产品在规定条件下和规定时间内完成规定功能的概率时，通常要做破坏性检验和试验，如灯泡的寿命测试、焊缝的强度检验、电视机无故障工作时间的确定等。我们只能通过抽取样本，对样本进行破坏性试验后，推断总体的可靠性指标。如果对所有产品进行破坏性检测，就没有产品可供销售了，这违背了我们研究的本来目的。

2、还有一些研究对象，组成其整体的个体是无限多的，客观上对全部个体进行观察和检验是根本不可能的。如研究海水中微生物的情况时，不可能将全部海水都装入试管中；分析鱼池中全部活鱼的重量与长度时，不能将池水抽干、逐条过秤等。因此，只能用随机取样统计推断的方法。

3、有些情况对全部个体逐一研究、检测是可以的，但需要付出非常多的财力、物力和时间。如自动化流水作业的生产过程，对每个产品进行检测需要停机等。因此，我们也只能依赖于抽样检验和调查，分析样本后对整体做出判断。

4、由于整体的不均匀性和样本的随机性，利用分析样本得到的数据来推断总体的情况必然会产生偏差。但是，在大多数情况下这种估计误差的存在是合理的，也是可以容忍的。因为不同的问题有不同的精度要求，并不是所有问题都需要一个绝对准确的估量，也不是一切问题都能得到一个非常精确的结果，所以统计推断是不可缺少的研究手段1。

准确性个体是总体的一部分，局部的特性能反映全局的特点，但是，由于总体的不均匀性和样本的随机性，又使得样本不能精确地反映总体。因此，抽取部分个体经分析得出有关总体的结论存在着差错和不可靠。从理论上讲有两种途径可以消除和减少这种差错。其一，使总体最大限度地均匀。总体是我们要研究的未知事物，我们往往不可能改变他的均匀性，当能够使其达到理想的均匀时，已经完全掌握了它，没有研究的必要了。其二，采取适当的抽样方法确保抽样的“代表性”，可有效地控制和提高统计推断的可靠性和正确性。

随机抽样的方法很多，常用的有：

1、简单随机抽样

简单随机抽样，是指抽样过程应独立进行并且总体中每个个体被抽到的机会均等。随机抽样不是随便抽取，随便抽取容易受到个人好恶的影响。为实现随机化，可采取抽签、掷随机数骰子或查随机数值表等办法。如从100件产品中随机抽取l0件组成样本，可以把这100件产品从l开始编号直到100号，然后用抓阄的办法任意抽出l0个编号，由这l0个编号代表的产品组成样本。此种抽样方法的优点是抽样误差小，缺点是手续繁杂。在实践中真正做到每个个体被抽到的机会相等是不容易的。

2、周期系统抽样

周期系统抽样，又叫等距抽样或机械抽样，即将总体按顺序编号，用抽签或查随机数值表的方法确定首件，进而按等距原则依次抽取样本。如从120个零件中取五个做样本，先按生产顺序给产品编号，用简单随机抽样法确定首件，然后按每隔24(由120÷5=24得)个号码抽取一个，共抽取五个组成样本。这种方法特别适用于流水线上取样，操作简便，实施起来不易出现差错。但抽样起点一经确定，整个样本就完全固定。对总体质量特性含有某种周期性变化，而当抽样间隔恰好与质量特性变化周期吻合时，就可能得到一个偏差很大的样本。

3、分层抽样法

分层抽样法，即从一个可以分成不同子总体的总体中，按规定比例从不同层中随机抽取个体的方法。当不同设备、不同环境生产同一种产品时，由于条件差别产品质量可能有较大差异，为了使所抽取的样本具有代表性，可以将不同条件下生产的产品组成组，使同一组内产品质量均匀，然后在各组内按比例随机抽取样品合成一个样本。这种抽样方法得到的样本代表性比较好，抽样误差较小，缺点是抽样手续较繁，常用于产品质量检验。

4、整群抽样法

这种方法是先将总体按一定方式分成多个群，然后随机地抽取若干群并由这些群中的所有个体组成样本。如按照生产过程将1000个零件分别装入2O个箱中，每箱5O个，然后随机抽取一箱，此箱中5O个零件组成样本。这种抽样方法实施方便，但样本来自个别群体而不能均匀分布在总体中，因而代表性差，抽样误差较大。