版权归原作者所有,如有侵权,请联系我们

[科普中国]-二项分布

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

二项分布就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

定义统计学定义在概率论和统计学中,二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当 时,二项分布就是伯努利分布,二项分布是显著性差异的二项试验的基础1。

医学定义在医学领域中,有一些随机事件是只具有两种互斥结果的离散型随机事件,称为二项分类变量(dichotomous variable),如对病人治疗结果的有效与无效,某种化验结果的阳性与阴性,接触某传染源的感染与未感染等。二项分布(binomial distribution)就是对这类只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。

考虑只有两种可能结果的随机试验,当成功的概率( )是恒定的,且各次试验相互独立,这种试验在统计学上称为伯努利试验(Bernoulli trial)。如果进行 次伯努利试验,取得成功次数为 的概率可用下面的二项分布概率公式来描述:

P=C(X,n)*π^X*(1-π)^(n-X)

式中的n为独立的伯努利试验次数,π为成功的概率,(1-π)为失败的概率,X为在n次伯努里试验中出现成功的次数,表示在n次试验中出现X的各种组合情况,在此称为二项系数(binomial coefficient)。

所以的含义为:含量为n的样本中,恰好有X例阳性数的概率1。

概念二项分布(Binomial Distribution),即重复n次的伯努利试验(Bernoulli Experiment),用ξ表示随机试验的结果。如果事件发生的概率是P,则不发生的概率q=1-p,N次独立重复试验中发生K次的概率是

P(ξ=K)= C(n,k) * p^k * (1-p)^(n-k),其中C(n, k) =n!/(k!(n-k)!),注意:第二个等号后面的括号里的是上标,表示的是方幂。

那么就说这个属于二项分布。其中P称为成功概率。记作ξ~B(n,p)

期望:Eξ=np;

方差:Dξ=npq;

其中q=1-p

证明:由二项式分布的定义知,随机变量X是n重伯努利实验中事件A发生的次数,且在每次试验中A发生的概率为p。因此,可以将二项式分布分解成n个相互独立且以p为参数的(0-1)分布随机变量之和.

设随机变量X(k)(k=1,2,3...n)服从(0-1)分布,则X=X(1)+X(2)+X(3)....X(n).

因X(k)相互独立,所以期望:

方差:

证毕2。

如果

1.在每次试验中只有两种可能的结果,而且是互相对立的;

2.每次实验是独立的,与其它各次试验结果无关;

3.结果事件发生的概率在整个系列试验中保持不变,则这一系列试验称为伯努利实验。

在这试验中,事件发生的次数为一随机事件,它服从二次分布。二项分布可以用于可靠性试验。可靠性试验常常是投入n个相同的式样进行试验T小时,而只允许k个式样失败,应用二项分布可以得到通过试验的概率。

若某事件概率为p,现重复试验n次,该事件发生k次的概率为:P=C(n,k)×p^k×(1-p)^(n-k)。C(n,k)表示组合数,即从n个事物中拿出k个的方法数2。

性质(一)二项分布是离散型分布,概率直方图是跃阶式的。因为x为不连续变量,用概率条图表示更合适,用直方图表示只是为了更形象些。

1.当p=q时图形是对称的

例如, ,p=q=1/2,各项的概率可写作:

2.当p≠q时,直方图呈偏态,pq的偏斜方向相反。如果n很大,即使p≠q,偏态逐渐降低,最终成正态分布,二项分布的极限分布为正态分布。故当n很大时,二项分布的概率可用正态分布的概率作为近似值。何谓n很大呢?一般规定:当pq且nq≥5,这时的n就被认为很大,可以用正态分布的概率作为近似值了。

(二)二项分布的平均数与标准差

如果二项分布满足pq,np≥5)时,二项分布接近正态分布。这时,也仅仅在这时,二项分布的x变量(即成功的次数)具有如下性质:

即x变量具有μ = np,的正态分布。

式中n为独立试验的次数,p为成功事件的概率,q=1- p。 由于n很大时二项分布逼近正态分布,其平均数,标准差是根据理论推导而来的,故用μ和σ而不用X和S表示。它们的含意是指在二项试验中,成功的次数的平均数μ = np ,成功次数的分散程 。例如一个掷10枚硬币的试验,出现正面向上的平均次数为5次(μ= np=),正面向上的散布程度为√10×(1/2)×(1/2)= 1.58(次),这是根据理论的计算,而在实际试验中,有的人可得10个正面向上,有人得9个、8个……,人数越多,正面向上的平均数越接近5,分散程度越接近1.582。

图形特点(1)当(n+1)p不为整数时,二项概率P{X=k}在k=[(n+1)p]时达到最大值;

(2)当(n+1)p为整数时,二项概率P{X=k}在k=(n+1)p和k=(n+1)p-1时达到最大值。

注:[x]为不超过x的最大整数。1

应用条件1.各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡等,属于两分类资料。

2.已知发生某一结果(阳性)的概率为π,其对立结果的概率为1-π,实际工作中要求π是从大量观察中获得比较稳定的数值。

3.n次试验在相同条件下进行,且各个观察单位的观察结果相互独立,即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性、无家族性等2。

应用实例二项分布在心理与教育研究中,主要用于解决含有机遇性质的问题。所谓机遇问题,即指在实验或调查中,实验结果可能是由猜测而造成的。比如,选择题目的回答,划对划错,可能完全由猜测造成。凡此类问题,欲区分由猜测而造成的结果与真实的结果之间的界限,就要应用二项分布来解决。下面给出一个例子。

已知有正误题10题,问答题者答对几题才能认为他是真会,或者说答对几题,才能认为不是出于猜测因素?

分析:此题p=q=1/2,即猜对猜错的概率各为0.5。np≥5,故此二项分布接近正态分布:

根据正态分布概率,当Z=1.645时,该点以下包含了全体的95%。如果用原分数表示,则为

它的意义是,完全凭猜测,10题中猜对8题以下的可能性为95%,猜对8、9、10题的概率只5%。因此可以推论说,答对8题以上者不是凭猜测,而是会答。但应该明确:作此结论,也仍然有犯错误的可能,即那些完全靠猜测的人也有5%的可能性答对8、9、10道题。

此题的概率值,还可用二项分布函数直接计算,亦得与正态分布近似的结果:

b(8 10 0.5)=10*9/2*0.58*0.52 = 45/1024

b(9 10 0.5)=10*0.59*0.51 = 10/1024

b(10 10 0.5) = 1/1024

根据概率加法,答对8题及其以上的总概率为:45/1024+10/1024+1/1024=56/1024 = 0.0547 同理,可计算8题以下的概率为 95%。(近似)2

本词条内容贡献者为:

胡启洲 - 副教授 - 南京理工大学