版权归原作者所有,如有侵权,请联系我们

[科普中国]-渐近分布

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

在抽样分布理论中,来自正态总体的统计量中,以三大重要分布为代表的一些精确的抽样分布,它们的应用很广,但为数不多。 在其他情况下,总体为非正态总体或者总体的分布未知时,抽样分布都不易导出,或导出过于复杂而难于应用。文章利用大样本的方法,结合Slutsky定理,研究了来自一般总体的几个统计量,推出了它们的渐近分布。

概念在样本量无限增大时,统计量X(X1,X2,...XN)的极限分布作为抽样分布的一种近似,这种极限分布常称为渐近分布。统计推断的理论与方法贯穿于现代统计中,抽样分布理论是进行统计推断的基础。 在抽样分布理论中,已导出的χ2分布,t分布,F分布等,它们以来自正态总体、抽样分布的精确性、应用的广泛性、为数不多尤为重要。 但在其他情况下,总体为非正态总体或者总体的分布未知时,抽样分布都不易导出,或导出过于复杂而难于应用,这迫使人们去寻求其近似分布。 利用大样本的方法,结合Slutsky定理,研究了总体是一般分布或者分布未知情况下的几种统计量A12、 B2及其函数等,推出了它们的渐近分布。

基于一般分布总体的统计量的渐近分布在抽样分布理论中,正态总体是实际中经常用到的一个总体,来自该总体的分布,χ2分布,t分布,F分布等一批精确分布,应用非常广泛,但为数不多。 相对于正态总体来说,总体为非正态总体或者总体的分布未知时,要求抽样分布的精确分布是非常不容易的,或导出过于复杂而难于应用。

在总体为任意分布或者分布未知的情况下,利用大样本方法,并结合Slutsky等引理,可以得到一些统计量的渐近分布。 而且这些方法具有可推广的意义,只要能构造合适的函数,就可以得到更多的抽样分布,以便进行进一步的统计推断。1

应用基于短期资料的重庆风速极值渐进分布分析采用统计方法推算极值风速的误差主要来自3个方面:样本选取、模型选取和参数估计。年最大风速最初被认为服从极值II型,后来更多的研究表明极值风速取极值I型更好。研究发现,极值风速的有界性,与前2种极值分布的右部尾部长度(up—per taillength)无限长的特性相违背,而与极值III型分布右部尾部长度有限长的特性符合,因而选取极值III型分布最合适。采用跨阈法(Peak Over nresh—old,POT)选取样本的广义跨阈分布GPD模型(GeneralizedParato Distribution)能较好地弥补样本不足给参数估计带来的困难,同时给出较好的风速估计心。

利用重庆市沙坪坝区1990—1999年间的短期风速资料来进行年最大风速的极值分布分析。首先分别采用极值I型(Gumbel)分布、极值II型(Frechet)分布和极值III型(reverse weibuu)分布拟合年最大风速的极值分布,而后选取1990一1994年问各月最大风速作为样本,使样本容量扩大为60个来拟合最大风速的月极值的渐进分布。依据最小二乘法的原理、矩法和变量替换法分别对3种极值分布函数进行参数估计,通过参数估计优良性指标,比较短期风速资料下的年最大风速的分布函数与月极值渐进分布函数的拟合效果,从得到的4组12个分布函数中选取较好的一种极值分布函数作为年最大风速的极值分布函数。最后通过与GPD的参数估计指标及风速估计结果比较分析,得到短期风速资料下重庆年最大风速极值的最优渐进分布。

极值Ⅲ型(reverse weibull)分布给出了最佳的拟合优度和极值风速估计值且对于缺少长期风速观测资料的地区,采用对有限的短期资料进行月最大风速的分析来拟合该地区的风速极值渐进分布,效果明显优于采用年最大风速记录。从某种意义上来说样本容量的提高,使抽样误差减小了。2

重庆地面气温与风速年极值的渐近分布气象要素极值作为气候随机变量在数学意义上是不稳定的,但它们随时间变化过程在概率上却是稳定的。因此,气象要素极值的分布可能用分布函数去模拟,从而为气象极端事件出现概率的预测提供理论依据和数据参考。分布函数的具体形式因随机变量的特性而异,试验表明:某些气象要素极值,例如气温极值和风速极值的渐近分布,能以很高的拟合精度遵循三参数韦伯分布或耿贝尔分布。故选用三参数韦伯分布和耿贝尔分布作为已知分布函数,拟合重庆地面最高气温和最大风速年极值的渐近分布。用重庆40年(1951 —1990)的地面最高气温年极值资料和30年(1956 —1990 )的最大风速年极值资料,其中最大风速年极值有些年份无记录值,故只有30 年作为样本容量,对拟合参数进行估计,并通过比较表征参数估计优良性的指标,选取较好的一种作为重庆地面最高气温和最大风速年极值的渐近分布函数。

利用重庆1951—1990年40年间的地面最高气温年极值和1956—1990年间地面最大风速年极值记录,用韦伯分布和耿贝尔分布分别对它们进行拟合实验,并对其中的参数进行估算。计算了拟合标准差、拟合相对偏差、柯尔莫哥洛夫拟合适度,从中选出这三个值较小的分布模式作为假设分布,然后通过统计检验,最后确定出重庆地面最高气温和最大风速年极值应遵循的渐近分布。

从统计检验可以发现:重庆地区的最大风速年极值的渐近分布的拟合效果比最高气温年极值渐近分布的拟合效果差,其检验统计量比最高气温年极值的大。主要原因如下:(1)受资料来源的限制,最大风速年极值的样本容量比最高气温年极值的样本容量小。我国大部分测站只有解放以后的气象资料,而且最大风速年极值有些缺记录,风速漏报等原因而造成样本容量小。(2)最大风速年极值受各种因素的影响如风的阵性、测站位置、周边环境、仪器和安装方法的更新、观测时制的改变、站址的改变(重庆站在我们所取资料的时段内曾有陈家坪和沙坪坝站址的转换)等原因都可能使观测序列发生改变,这些变化不是实际气候变化的反映,因而破坏了资料的均一性,而使其变化更不规则,不稳定,即其均一性欠佳。特别是当风速大于20M/S 时,出现的机率很小。(3)风速测量仪器的观测准确度远小于温度观测。所有这些都会使最大风速年极值的渐近分布的拟合效果比最高气温年极值渐近分布的拟合效果差。重庆地面最高气温年极值的渐近分布用韦伯分布或耿贝尔分布均可,但用韦伯分布拟合更精确。3

本词条内容贡献者为:

王强 - 副教授 - 西南大学