版权归原作者所有,如有侵权,请联系我们

[科普中国]-数理统计学

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

简介

莱尔根据各个地层中的化石种类和现仍在海洋中生活的种类作出百分率,然后定出更新世、上新世、中新世、始新世的名称。并于1830~1833年出版了三卷《地质学原理》。这些地质学中的名称沿用至今,可是他使用的类似于现在数理统计的方法,却没有引起人们的重视。

生物学家达尔文关于进化论的工作主要是生物统计的,他在乘坐“贝格尔”号军舰到美洲的旅途上带着莱尔的上述著作,二者看来不无关系。

从数学上对生物统计进行研究的第一人是英国统计学家皮尔逊,他曾在伦敦大学学院学习,然后去德国学物理,1881年在剑桥大学获得学士学位,1882年任伦敦大学应用数学力学教授。

具体地说与人们生活有关的如某种食品营养价值高低的调查;通过用户对家用电器性能指标及使用情况的调查,得到全国某种家用电器的上榜品牌排名情况;一种药品对某种疾病的治疗效果的观察评价等都是利用数理统计方法来实现的。

飞机、舰艇、卫星、电脑及其它精密仪器的制造需要成千上万个零部件来完成,而这些零件的寿命长短,性能好坏均要用数理统计的方法进行检验才能获得。

在经济领域,从某种商品未来的销售情况预测到某个城市整个商业销售的预测,甚至整个国家国民经济状况预测及发展计划的制定都要用到数理统计知识。

数理统计用处之大不胜枚举。可以这么说,现代人的生活、科学的发展都离不开数理统计。从某种意义上来讲,数理统计在一个国家中的应用程度标志着这个国家的科学水平。

难怪在谈到数理统计的应用时,有人称赞它的用途像水银落地是无孔不入的,这恐怕并非言过其实。

定义数理统计学就是运用模型和新技术对通过社会调查收集起来的数据进行统计分析和处理。在一些比较前沿的科技问题以及国民经济问题中,都可以利用数理统计学对这些复杂的重大问题进行预先推断和判断,以此为决策与行动提供可靠的依据和建议,除此之外,对于社会与政府中存在的问题,也可以应用数理统计学对其进行分析和处理。因而,数理统计学是j应用十分广泛的基础性学科1。

发展历程数理统计学是伴随着概率论的发展而发展起来的。19世纪中叶以前已出现了若干重要的工作,如C.F.高斯和A.M.勒让德关于观测数据误差分析和最小二乘法的研究。到19世纪末期,经过包括K.皮尔森在内的一些学者的努力,这门学科已开始形成。但数理统计学发展成一门成熟的学科,则是20世纪上半叶的事,它在很大程度上要归功于K.皮尔森、R.A.费希尔等学者的工作。特别是费希尔的贡献,对这门学科的建立起了决定性的作用。1946年H.克拉默发表的《统计学数学方法》是第一部严谨且比较系统的数理统计著作,可以把它作为数理统计学进入成熟阶段的标志。

数理统计学的发展大致可分3个时期。

第一时期20 世纪以前。这个时期又可分成两段,大致上可以把高斯和勒让德关于最小二乘法用于观测数据的误差分析的工作作为分界线,前段属萌芽时期,基本上没有超出描述性统计量的范围。后一阶段可算作是数理统计学的幼年阶段。首先,强调了推断的地位,而摆脱了单纯描述的性质。由于高斯等的工作揭示了正态分布的重要性,学者们普遍认为,在实际问题中遇见的几乎所有的连续变量,都可以满意地用正态分布来刻画。这种观点使关于正态分布的统计得到了深入的发展,但延缓了非参数统计的发展。19世纪末,K.皮尔森给出了以他的名字命名的分布,并给出了估计参数的一种方法——矩法估计。德国的F.赫尔梅特发现了统计上十分重要的x2 分布。

第二时期20世纪初到第二次世界大战结束。这是数理统计学蓬勃发展达到成熟的时期。许多重要的基本观点和方法,以及数理统计学的主要分支学科,都是在这个时期建立和发展起来的。这个时期的成就,包含了至今仍在广泛使用的大多数统计方法。在其发展中,以英国统计学家、生物学家费希尔为代表的英国学派起了主导作用。

第三时期战后时期。这一时期中,数理统计学在应用和理论两方面继续获得很大的进展。

分支学科数理统计学内容庞杂,分支学科很多,难于作出一个周密而无懈可击的分类。大体上可以划分为如下几类:

第一类分支学科是抽样调查和试验设计。它们主要讨论在观测和实验数据的收集中有关的理论和方法问题,但并非与统计推断无关。

第二类分支学科为数甚多,其任务都是讨论统计推断的原理和方法。各分支的形成是基于:

1、特定的统计推断形式,如参数估计和假设检验。

2、特定的统计观点,如贝叶斯统计与统计决策理论。

3、特定的理论模型或样本结构,如非参数统计、多元统计分析、回归分析、相关分析、序贯分析,时间序列分析和随机过程统计。

第三类是一些针对特殊的应用问题而发展起来的分支学科,如产品抽样检验、可靠性统计、统计质量管理等。

统计环节用数理统计方法去解决一个实际问题时,一般有如下几个步骤 :建立数学模型 ,收集整理数据,进行统计推断、预测和决策。这些环节不能截然分开,也不一定按上述次序,有时是互相交错的。

1、模型的选择和建立。在数理统计学中,模型是指关于所研究总体的某种假定,一般是给总体分布规定一定的类型。建立模型要依据概率的知识、所研究问题的专业知识、以往的经验以及从总体中抽取的样本(数据)。

2.、数据的收集。有全面观测、抽样观测和安排特定的实验3种方式。全面观测又称普查,即对总体中每个个体都加以观测,测定所需要的指标。抽样观测又称抽查,是指从总体中抽取一部分,测定其有关的指标值。这方面的研究内容构成数理统计的一个分支学科。叫抽样调查。

3、安排特定实验以收集数据,这些特定的实验要有代表性,并使所得数据便于进行分析。这里面所包含的数学问题,构成数理统计学的又一分支学科,即实验设计的内容。

4、数据整理。目的是把包含在数据中的有用信息提取出来 。 一种形式是制定适当的图表,如散点图,以反映隐含在数据中的粗略的规律性或一般趋势。另一种形式是计算若干数字特征,以刻画样本某些方面的性质,如样本均值、样本方差等简单描述性统计量。

5、统计推断。指根据总体模型以及由总体中抽出的样本,作出有关总体分布的某种论断 。数据的收集和整理是进行统计推断的必要准备,统计推断是数理统计学的主要任务。

6、统计预测。统计预测的对象,是随机变量在未来某个时刻所取的值,或设想在某种条件下对该变量进行观测时将取的值。例如,预测一种产品在未来3年内的市场销售量,某个10岁男孩在3年后的身高,体重等等。

7、统计决策。依据所做的统计推断或预测,并考虑到行动的后果(以经济损失的形式表示)而制定的一种行动方案。目的是使损失尽可能小,或反过来说,使收益尽可能大。例如,一个商店要决定今年内某种产品的进货数量,商店的统计学家根据抽样调查,预测该产品本店今年销售量为1000件。假定每积压一件产品损失20元,而少销售一件产品则损失10元,要据此作出关于进货数量的决策。

应用数理统计方法在工农业生产、自然科学和技术科学以及社会经济领域中都有广泛的应用。

1、在农业中,对田间试验进行适当的设计和统计分析。

2、实验设计法、回归设计和回归分析、方差分析、多元分析等统计方法,在工业生产的试制新产品和改进老产品、改革工艺流程、使用代用原材料和寻求适当的配方等问题中起着广泛的作用,统计质量管理在控制工业产品的质量中起着十分重要的作用。

3、医学是较早使用数理统计方法的领域之一 。在防治一种疾病时,需要找出导致这种疾病的种种因素,统计方法在发现和验证这些因素上,是一个重要工具。另一方面的应用是,用统计方法确定一种药物对治疗某种疾病是否有用,用处多大,以及比较几种药物或治疗方法的效力。

4、在自然科学和技术科学中,如统计方法用于地震、气象和水文方面的预报、地质资源的评价等。

5、在社会、经济领域方面,如人口调查和预测,心理学中能力方面的分析等。

学习事项1.由于数理统计是一门实用性极强的学科,在学习中要紧扣它的实际背景,理解统计方法的直观含义。了解数理统计能解决那些实际问题。对如何处理抽样数据,并根据处理的结果作出合理的统计推断,该结论的可靠性有多少要有一个总体的思维框架,这样,学起来就不会枯燥而且容易记忆。例如估计未知分布的数学期望,就要考虑到① 如何寻求合适的估计量的途径,②如何比较多个估计量的优劣。这样,针对①按不同的统计思想可推出矩估计和极大似然估计,而针对②又可分为无偏估计、有效估计、相合估计,因为不同的估计名称有着不同的含义,一个具体估计量可以满足上面的每一个,也可能不满足。掌握了寻求估计的统计思想,具体寻求估计的步骤往往是“套路子”的,并不困难,然而如果没有从根本上理解,仅死背套路子往往会出现各种错误。?

2.许多人在学习数理统计过程中往往抱怨公式太多,置信区间,假设检验表格多而且记不住。事实上概括起来只有八个公式需要记忆,而且它们之间有着紧密联系,并不难记,而区间估计和假设检验中只是这八个公式的不同运用而已,关键在于理解区间估计和假设检验的统计意义,在理解基础上灵活运用这八个公式,完全没有必要死记硬背。

现实意义笼统地说,数理统计学的理论和方法,与人类活动的各个领域在不同程度上都有关联。因为各个领域内的活动,都得在不同的程度上与数据打交道。都有如何收集和分析数据的问题,因此也就有数理统计学用武之地。可以举几个例子来说明这一点,如在工业中生产一种产品,首先有设计的问题,包括配方和工艺条件的选定,这要通过从大量可能的条件组合中,通过分析试验结果来选定,可能的条件组合很多,选择哪一部分去做试验是一个很有讲究的问题,在数理统计学中有一个专门分支叫“试验设计”,就是研究怎样在尽可能少的试验次数之下,达到尽可能高效率的分析结果;其次,在生产过程中,由于原材料,设备调整及工艺参数等条件可能的变化,而造成生产条件不正常并导致出现废品,在统计学中有一门“工序控制”的学问,通过在生产过程中随时收集数据并用统计方法进行处理,可以监测出不正常情况的出现以便随时加以纠正,避免出大的问题;然后,大批量的产品生产出来后,还有一个通过抽样检验以检验其质量是否达到要求,是否可以出厂或为买方所接受的问题,处理这个问题也要使用数理统计方法,在我国现行的国家标准中有一些就与这个问题有关。

在农业上,有关选种,耕作条件,肥料选择等一系列的问题的解决,都与统计方法的应用有关,在历史上,现行的一些重要的统计设计与分析方法,就是近代最伟大的数理统计学家费歇尔于上世纪20年代在英国一个农业试验站工作时,因研究田间试验的问题而发明的。

医学与生物学是统计方法应用最多的领域之一,统计学是在有变异的数据中研究和发现统计规律的科学,就医学而言,人体变异是一个重要的因素,不同的人的情况千差万别,其对一种药物和治疗方法的反应也各不相同,因此,对一种药物和治疗方法的评价,是一种统计性规律的问题,不少国家对一种新药的上市和一种治疗方法的批准,都设定了很严格的试验和统计检验的要求。又如:许多生活习惯(如吸烟、饮酒、高盐饮食之类)对健康的影响,环境污染对健康的影响,都要通过收集大量数据进行统计分析来研究。

对社会现象的研究大量地使用统计方法,因为组成社会的单元——人、家庭、单位、地区等,都有很大的变异性,如果说,在自然现象中还不乏一些(在误差可以允许的限度内)严格的、确定性的规律,在社会现象中这种规律则绝少,因此只能从统计的角度去考察,我们常说,某某措施,某某政策,对大多数人是有利的,这就是一种统计性规律,因为这种“有利”是指对大多数,而非一切人。在20世纪初,就有统计学家研究过在英国几种救助贫困的方式的效果的评估,这都是借助抽样调查并通过复杂的统计分析得出的结果。如今,抽样调查已经成为研究社会现象的一种最有力的工具,因为全面调查往往不可行,而抽样调查,从其方案的制定到数据的分析,都是以数理统计学的理论和方法为基础。

学科奠基者数理统计作为一个进一步完善的数学学科的奠基者是英国人费歇尔。他1909年入剑桥大学,攻读数学物理专业,三年后毕业。毕业后,他曾去投资办工厂,又到加拿大农场管过杂务,也当过中学教员。1919年,他开始对生物统计学产生了浓厚的兴趣,参加罗萨姆斯泰德试验站的工作,致力于数理统计在农业科学和遗传学中(费歇尔1890—1962)的应用研究。

年轻的费歇尔主要的研究工作是用数学将样本的分布给以严格的确定。在一般人看来枯燥乏味的数学,常能带给研究者极大的慰藉。费歇尔热衷于数理统计的研究工作,后来的理论研究成果有:数据信息的测量、压缩数据而不减少信息、对一个模型的参数估计等。

最使科学家称赞的工作则是试验设计,它将一切科学试验从某一个侧面“科学化”了,不知节省了多少人力和物力,提高了若干倍的工效。

费歇尔培养了一个学派,其中有专长纯数学的,有专长应用数学的。在30-50年代费歇尔是统计学的中心人物。1959年费歇尔退休后在澳大利亚度过了最后三年。

与社会经济学关系社会经济统计学和数理统计学两者都是统计学的重要分支,两者在研究对象和方法论上都具有共通性,但是在研究范围方面和理论基础方面又具有一些差异。

历史社会经济统计学在原始社会末期,奴隶社会早期就已经开始萌芽,主要是对人口数量与土地的丈量进行统计,伴随着社会和经济的发展,社会经济统计学在封建社会就已经初具规模,在资本主义时期,其发展更是到了上升时期。社会经济统计学的发展离不开人类的实践活动,在实践中逐渐成熟。直到在统计学中引入了概率论以后,才使统计学诞生出新的学科,即数理统计学。

相同点社会经济统计学和数理统计学都是对事物的统计规律进行研究,并且在研究方法论方面具有共通性,两者都是利用归纳推理的研究方法而不是演绎推理的研究方法。在许多教材中,在对数理统计学的学科性质进行阐述时都明确表示数理统计学是对随机现象的数据进行统计,并对其规律性进行研究与揭示。而关于社会经济统计学的研究对象,在统计学术界还存在一些争议,一部分学者认为,社会经济统计学属于独立的社会科学类,主要是对具体时间、具体地点条件下的社会经济现象中的数量表现进行研究和统计,并揭示其数量规律,认为其数量表现和规律就是社会经济统计学需要研究的对象。还有一部分学者则认为社会经济统计学属于统计方法论科学类,重在对社会经济现象下的数据进行收集、整理、统计与分析,认为其统计方法论就是需要研究的对象。而经过长期的实践来看,社会经济统计学和数理统计学两者在研究对象上其实具有同一性,这两门学科都是在对事物的统计规律进行研究和揭示。

首先,从“研究对象”的本身含义来看,把某一人或是某一事物当作自身行动和思考的目标,才叫研究对象,这就表示研究对象由两个不同部分构成,一部分是研究目标;另一部分是研究客体。所以,把事物的统计规律性作为统计学的研究对象,符合“研究对象”的本义。当然,要想达到最终的目的,方法的使用也很重要;对于统计学来说,其研究方法都是来源于哲学科学中的归纳推理法,核算方法则是从哲学和数学共同的方法论中衍生而来。因此,说对事物的统计规律性进行研究是统计学的研究目标,自然和社会现象是统计学的研究客体是非常正确的。归纳推理法是对具体的事实进行原理概括,命题具有个别性特点,结论则适用于普遍性和一般性,且结论的内容远远大于前提。利用归纳推理法对自然和社会现象的统计规律进行研究和推断,能够从局部预先对总体有一个清楚的认识。所以,社会经济统计学和数理统计学均采用归纳推理法进行相关工作。

不同点第一,研究范围不同。对于社会经济统计学来说,主要是对社会经济现象进行研究,而对于数理统计学来说,除了对自然现象进行研究以外,还可以对社会现象进行研究。社会经济统计学虽然只对社会经济现象进行研究,但是社会经济现象包含的领域非常多,内容也非常丰富。从广义的角度来看,社会经济现象除了有人类自身的再生产活动,还有物质、精神、自然环境的再生产活动,这些活动互相影响和制约,紧密结合又不可分离,所以社会经济统计学还需要对这四类再生产活动之间的关系进行研究。从研究层次和研究内容来看,社会统计经济学涉及对人类生产生活的各个领域的研究。数理统计学研究的对象均属于自然现象,也就是随机现象。而社会经济统计学研究的社会经济现象除了具有随机现象以外,还有确定性现象。

第二,理论基础不同。概率论是数理统计学最重要的理论基础,尤其是抽样推断更是以概率论的大数法为基础和核心,在大多数的随机现象中,大数法具有稳定性,大量且独立的随机因素组成了研究总体,这些因素对研究总体的影响非常小,使其抽样平均数接近总体平均数。社会经济统计学在研究方法上也把概率论当作理论基础,而在客体研究上则是把经济学理论当作理论基础,利用马克思的社会再生产理论、劳动价值理论、现代货币理论等哲学理论作为社会经济统计学的思维方式1。