版权归原作者所有,如有侵权,请联系我们

[科普中国]-非参数统计

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

概述

非参数统计是统计学的一个重要分支,它在实践中有着广泛的应用。所谓统计推断,就是由样本观察值去了解总体,它是统计学的基本任务之一。若根据经验或某种理论我们能在推断之前就对总体作一些假设,则这些假设无疑有助于提高统计推断的效率。这种情况下的统计方法称为“参数统计”。如果我们所知很少,以致于在推断之前不能对总体作任何假设,或仅能作一些非常一般性(例如连续分布、对称分布等)的假设,这时如果仍然使用参数统计方法,其统计推断的结果显然是不可信的,甚至有可能是错的。在对总体的分布不作假设或仅作非常一般性假设条件下的统计方法称为“非参数统计”。

由于非参数统计方法与总体究竟是什么分布几乎没有什么关系,所以它的应用范围很广,它在社会学、医学、生物学、心理学、教育学等领域都有着广泛的应用。由于有关于总体的假设,所以参数统计的推断方法是针对这个假设的。相对而言,非参数统计的推断方法是很一般的,它仅应用样本观察值中一些非常直观(例如次序)的信息。所以非参数统计分析含有丰富的统计思想。

举例说明例如,检验“两个总体有相同分布”这个假设,若假定两总体的分布分别为正态分布N(μ1,σ2)和N(μ2,σ2),则问题只涉及三个实参数μ1,μ2,σ2,这是参数统计问题。若只假定两总体的分布为连续,此外一无所知,问题涉及的分布不能用有限个实参数刻画,则这是非参数统计问题。又如,估计总体分布的期望μ,若假定总体分布为正态 N(μ,σ2),则问题是参数性的;若只假定总体分布的期望值存在,则问题是非参数性的。不过参数统计与非参数统计之间并没有泾渭分明的界线。

例外有的统计问题,从不同的角度,可以理解为参数性的,也可以理解为非参数性的。例如线性回归(见回归分析)问题,若关心的是估计回归系数,它只是有限个实参数,因而可以看成是参数性的。但是,如果对随机误差的分布类型没有作任何假定,则从问题的总体分布这个角度看,也可以看成是非参数性的。

统计方法重要的非参数统计方法秩方法是基于秩统计量(见统计量)的一类重要的非参数统计方法。设有样本X1,X2,…,Xn,把它们由小到大排列,若Xi在这个次序中占第Ri个位置(最小的占第1个位置),则称Xi的秩为Ri(i=1,2,…,n)。1945年F.威尔科克森提出的"两样本秩和检验"是一个有代表性的例子。设X1,X2,…,Xm和Y1,Y2,…,Yn分别是从分布为 F(x)和 F(x-θ)的总体中抽出的样本,F连续但未知,θ也未知,检验假设 H:θ=0,备择假设为θ>0(见假设检验)。记Yi在混合样本(X1,X2,…,Xm,Y1,Y2,…,Yn)中的秩为Ri,且为诸秩的和,当W >C时,否定假设H,这里C决定于检验的水平。这是一个性能良好的检验。秩方法的一个早期结果是C.斯皮尔曼于1904年提出的秩相关系数。设(X1,Y1),(X2,Y2),…,(Xn,Yn)是从二维总体(X,Y)中抽出的样本,Ri为Xi在(X1,X2,…,Xn)中的秩,Qi为Yi在(Y1,Y2,…,Yn)中的秩,定义秩相关系数为(Ri,Qi)(i=1,2,…n)的通常的相关系数(见相关分析)。它可以作为X、Y之间相关程度的度量,也可用于检验关于X、Y独立性的假设。

次序统计量和U 统计量在非参数统计中也有重要应用。前者可用于估计总体分布的分位数(见概率分布)、检验两总体有相同的分布及构造连续总体分布的容忍限和容忍区间(见区间估计)等。后者主要用于构造总体分布的数字特征的一致最小方差无偏估计(见点估计)及基于这种估计的假设检验。

苏联数学家Α.Η.柯尔莫哥洛夫和Β.И.斯米尔诺夫在20世纪30年代的工作开辟了非参数统计的一个方面,他们的方法基于样本X1,X2,…,Xn的经验分布函数Fn(x)(见样本)。柯尔莫哥洛夫考察 Fn(x)与理论分布F(x)的最大偏差墹n,当墹n超过一定限度时,否定这个理论分布F(x)。这就是柯尔莫哥洛夫检验。斯米尔诺夫则考察由两个分布为F(x)和g(x)的总体中抽出的样本X1,X2,…,Xm和Y1,Y2,…,Yn计算其经验分布Fm(x)和gn(x)的最大偏差墹mn,当墹mn超过一定限度时,否定“F与g相等”这个假设。这就是斯米尔诺夫检验。

在非参数性估计方面,有关于估计分布的对称中心、概率密度函数和回归函数等比较重要的成果1。

基本特点非参数统计问题中对总体分布的假定要求的条件很宽,因而针对这种问题而构造的非参数统计方法,不致因为对总体分布的假定不当而导致重大错误,所以它往往有较好的稳健性(见稳健统计),这是一个重要特点。但因为非参数统计方法需要照顾范围很广的分布,在某些情况下会导致其效率的降低。不过,近代理论证明了:一些重要的非参数统计方法,当与相应的参数方法比较时,即使在最有利于后者的情况下,效率上的损失也很小。

由于非参数统计中对分布假定要求的条件宽,因而大样本理论(见大样本统计)占据了主导地位。第二次世界大战前,非参数统计的大样本理论已有了一些结果,从20世纪50年代直到现代,更有了显著的进展,尤其是关于秩统计量与U 统计量的大样本理论,及基于这种理论的大样本非参数方法,研究成果很多。

适用范围非参数统计最常用于具备下述特征的情况:

1、待分析数据不满足参数检验所要求的假定,因而无法应用参数检验。例如,我们曾遇到过的非正态总体小样本,在t-检验法也不适用时,作为替代方法,就可以采用非参数检验。

2、仅由一些等级构成的数据,不能应用参数检验。例如,消费者可能被问及对几种不同商标的饮料的喜欢程度,虽然,他们不能对每种商标都指定一个数字来表示他们对该商标的喜欢程度,却能将几种商标按喜欢的顺序分成等级。这种情形也宜采用非参数检验。

3、所提的问题中并不包含参数,也不能用参数检验。例如,我们想判断一个样本是否为随机样本,采用非参数检验法就是适当的。

4、当我们需要迅速得出结果时,也可以不用参数统计方法而用非参数统计方法来达到目的。一般说来,非参数统计方法所要求的计算与参数统计方法相比,完成起来既快且易。有些非参数统计方法的计算,就算对统计学知识不熟练的人,也能在收集数据时及时予以完成2。

相对优点非参数统计与传统的参数统计相比,有以下优点:

1、非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。

2、多数非参数统计方法要求的运算比较简单,可以迅速完成计算取得结果,因而比较节约时间。

3、大多数非参数统计方法在直观上比较容易理解,不需要太多的数学基础知识和统计学知识。

4、大多数非参数统计方法可用来分析如象由等级构成的数据资料,而对计量水准较低的数据资料,参数统计方法却不适用。

5、当推论多达3个以上时,非参数统计方法尤具优越性。

相对缺点非参数统计方法也有以下缺点:

1、由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。

2、对于大样本,如不采用适当的近似,计算可能变得十分复杂。

相关图书图书信息书名:非参数统计

ISBN:9787302191674

作者:王星等

定价:37元

出版日期:2009-3-1

出版社:清华大学出版社

图书简介本书是非参数统计教材,内容从经典非参数统计推断到现代前沿,包括R基础、基本概念、单一样本的推断问题、两独立样本数据的位置和尺度推断、多组数据位置推断、分类数据的关联分析、秩相关和分位数回归、非参数密度估计、一元非参数回归和数据挖掘与机器学习共计10章. 本书配有大量与社会、经济、金融、生物等专业相关的例题和习题,给出示范解答过程,方便自学.

本书可以作为高等院校统计、经济、金融、管理专业的本科生课程的教材,也可以作为其他相关专业研究生的教材和教学参考书,另外,对广大从事与统计相关工作的实际工作者也极具参考价值.

目录第1章

基本概念和操作

环境

常量

算术运算

赋值

向量的生成和基本操作

向量的生成

向量的基本操作

向量的运算

向量的逻辑运算

高级数据结构

矩阵的操作和运算

数组

数据框

列表

数据处理

保存数据

读入数据

数据转换

编写程序

循环和控制

函数

基本统计计算

抽样

统计分布图形功能

函数

多图显示

帮助和包

习题

第2章

基本概念

非参数统计概念与产生

假设检验回顾

经验分布和分布探索

经验分布

生存函数

检验的相对效率

分位数和非参数估计

秩检验统计量

统计量

习题

第3章

单一样本的推断问题

符号检验和分位数推断

基本概念

大样本计算

符号检验在配对样本比较中的应用

分位数检验------符号检验的推广趋势存在性检验

随机游程检验

符号秩检验

基本概念

符号秩检验和抽样分布

单组数据的位置参数置信区间估计

顺序统计量位置参数置信区间估计

基于方差估计法的位置参数置信区间估计

正态记分检验

分布的一致性检验

拟合优度检验

正态性检验

正态分布检验

单一总体渐近相对效率比较

习题

第4章

两独立样本数据的位置和尺度推断中位数检验

秩和检验

方差检验

方差检验

习题

第5章

多组数据位置推断

试验设计和方差分析的基本概念回顾

单因素方差分析

检验

秩方差分析法

随机区组数据的调整秩和检验

检验

不完全区组分析法

习题

第6章

分类数据的关联分析

s$列联表和$\chi^2$独立性检验

齐性检验

精确性检验检验

关联规则

关联规则基本概念

算法

检验法

对数线性模型

对数线性模型的基本概念

模型的设计矩阵

模型的估计和检验

高维对数线性模型和独立性

习题

第7章

秩相关和分位数回归

秩相关检验

相关检验

多变量

协和系数检验

一致性检验

中位数回归系数估计法

线性分位回归模型

习题

第8章

非参数密度估计

直方图密度估计

核密度估计

核函数的基本概念

贝叶斯决策和非参数密度估计

习题

第9章

一元非参数回归

核回归光滑模型

局部多项式回归

局部线性回归

局部多项式回归的基本原理

稳健回归

近邻回归

正交序列回归

罚最小二乘法

习题

第10章

数据挖掘与机器学习

分类一般问题

回归模型

回归模型的极大似然估计}

回归和线性判别函数LDA

决策树

决策树基本概念

决策树的剪枝

回归树

决策树的特点

算法

支持向量机

最大边距分类

支持向量机问题的求解

支持向量机的核方法

随机森林树

随机森林树算法的定义

随机森林树算法的性质

如何确定随机森林树算法中树的节点分裂变量

随机森林树的回归算法

有关随机森林树算法的一些评价

多元自适应回归样条的一些性质}

附录

参考文献

3

出版者:中国统计出版社
书名:《非参数统计》(第二版)
作者:吴喜之 编著
开本:18开
字数:21万字
出版时间:2006.10出版
定价:29.00元/册
书号:ISBN 7-5037-4997-0/O.59

内容介绍:

在初等统计学中,最基本的概念是总体,样本,随机变量,分布,估计和假设检验等,其很大一部分内容是和正态理论相关的。在那里,总体的分布形式或分布族往往是给定的或者是假定了的。然而,在实际生活中, 那种对总体的分布的假定并不是能随便做出的。有时,数据并不是来自所假定分布的总体;或者,数据根本不是来自一个总体;还有可能,数据因为种种原因被严重污染。这样,在假定总体分布的情况下进行推断的做法就可能产生错误的、 甚至灾难性的结论。 于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。

《非参数统计》涉及了如下内容:单样本、两样本和多样本位置参数的推断,两样本和多样本尺度参数的推断,相关分析和稳健回归分析,关于分布的检验等基于秩的非参数统计的内容;还涉及了与非参数统计方法有一定关系的对数线性模型,和并不是基于秩的非参数回归。

它区别于国内的其他介绍非参数统计的著作的特点是:尽量用严谨而平实的语言和简单的公式介绍统计方法的思想和逻辑。而且本书作者还亲自编写了实现统计方法的R程序、SAS程序和SPSS程序的操作说明。

本书适合那些有初等统计基础,从事与应用统计相关,如医学,管理学等领域研究或实践的人员学习。当然本书也适合统计研究或实践的。本书为普通高等教育“十一五”国家级规划教材。4