版权归原作者所有,如有侵权,请联系我们

[科普中国]-贝叶斯分析方法

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏
定义

计算后验分布期望的传统数值计算方法是数值积分、拉普莱斯近似计算和蒙特卡洛(Monte Carlo)重要抽样。目前,MCMC方法,即马尔可夫链——蒙特卡罗(Markov chain Monte Carlo)方法已经变成了非常流行的贝叶斯计算方法。一方面是由于它处理非常复杂问题的效率,另一方面是因为它的编程方法相对容易。

贝叶斯分析方法(Bayesian Analysis)提供了一种计算假设概率的方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。1其方法为,将关于未知参数的先验信息与样本信息综合,再根据贝叶斯公式,得出后验信息,然后根据后验信息去推断未知参数的方法。

在贝叶斯统计理论中,统计推断中的相关量均作为随机量对待,而不考虑其是否产生随机值。概率被理解为基于给定信息下对相关量不完全了解的程度,对于具有相同可能性的随机事件认为具有相同的概率。在进行测量不确定度的贝叶斯评定时,与测量结果推断或不确是度评定相关的每一个物理量均被分配一个随机变量,分布宽度常用标准差表示,反映了对未知真值了解的程度。

按照贝叶斯理论,与测量或相关评定工作有关的每一个物理量均被分配一个随机变量,尽管每一个估计量和它所表示的相关被测量是不相同的,但它是用来估计被测量的待定真值的。为了简单起见,估计量、估计量的值和该被测量均用相同的符号表示,如用表示样本,同时也用它表示样本值,这可从上下文区别,不会发生混淆,因为样本是随机变量,而样本值是一些常量,这与经典统计理论是不同的。2

贝叶斯理论基础

经典统计在对随机分布参数进行参数估计时,假定待估计参数是未知常数,并认定这些参数的信息仅由样本携带,于是通过对样本“毫无偏见”的加工来获得参数估计。由于估计量可能有不完善之处,估计误差在所难免,因此经典统计理论中用置信区间表示这些误差的大小。

在对概率的理解上,经典统计认为概率就是频率的稳定值。一旦离开了重复试验,就谈不上去理解概率。因此要精确估计上述参数,必须保证有大量的数据样本,但在工程中实测数据毕竟有限。另外,统计抽样时所要求的样本独立同分布的条件也很难满足。

贝叶斯统计理论在估计随机分布参数时,认为待估计参数是随机变量,存在概率分布。贝叶斯方法对概率的理解是人们对某些事件的一种信任程度,是对事物的不确定性的一种主观判断,与个人因素等有关,,故称之为主观概率。贝叶斯统计中的先验分布反映的就是人们对于待估计参数的主观概率。为了在小样本量下能获得较好的参数估计,就必须利用参数的历史资料或先验知识。在进行参数估计时,贝叶斯学派认为后验分布综合了先验和样本的知识,可以对参数作出较先验分布更合理的估计,故其参数估计都是建立在后验分布基础上的,该方法对研究除观测数据外还具备较多信息的情况特别有效。

尽管贝叶斯方法与经典统计方法有很大的不同,但在大样本条件下,由这两种方法估计出的参数是一致的。而在小样本的情况下,贝叶斯方法可充分利用各种信息,结果更为可靠。

贝叶斯方法的特点是能充分利用现有信息,如总体信息、经验信息和样本信息等,将统计推断建立在后验分布的基础上。这样不但可以减少因样本量小而带来的统计误差,而且在没有数据样本的情况下也可以进行推断。2

贝叶斯理论是贝叶斯分析的基本工具,是以全概率法则为依据建立的。

贝叶斯定理

是不相交事件,即;并且,设必然事件。于是我们有:

这样,必然事件被分为m个不相交的子事件,事件B的条件概率即为给定每一个子事件下事件B的条件概率之和。于是,给定事件B(P(B)>0),事件的条件概率可以写为:

这个表达式就是贝叶斯定理。3