[科普中国]-先验概率- · 科普中国网

简介

在贝叶斯统计推断中，不确定数量的先验概率分布是在考虑一些因素之前表达对这一数量的置信程度的概率分布。例如，先验概率分布可能代表在将来的选举中投票给特定政治家的选民相对比例的概率分布。未知的数量可以是模型的参数或者是潜在变量。123

贝叶斯定理计算先验和似然函数的重新归一化的逐次积，产生了后验概率分布，它是给定数据的不确定量的条件分布。

类似地，随机事件或不确定命题的先验概率是在考虑任何相关证据之前分配的无条件概率。

可以使用多种方法创建优先级。可根据先前的实验确定过去的信息。先前的经验可以从经验丰富的专家的纯粹主观评估中引出。当没有信息可用时，可以创建一个不了解的先验，以反映结果之间的平衡。还可以根据某些原理来选择优先级，例如对称性或最大化给定约束的熵；例子是杰弗里斯之前或贝尔纳先前的参考例子。当存在共轭先验族时，从该族中选择先前的方法简化后验分布的计算。

先前分布的参数是一种超参数。例如，如果使用beta分布来模拟伯努利分布参数p的分布，则：

p是底层系统的参数（伯努利分布），α和β是先前分布（β分布）的参数。

超参数本身可能具有表达对其值的信念的超级派生分布。具有多个先前级别的贝叶斯模型称为分层贝叶斯模型。

信息先验信息先验表达了关于变量的具体的明确信息。举一个例子：明天中午以前的温度分布。合理的方法是将之前的正态分布预期值等于今天的中午温度，其方差等于大气温度的日常变化，或者是一年中的那一天的温度分布。

这个例子有许多先验的共同特征，即从一个问题（今天的温度）的后面，成为另一个问题（明天的温度）的先例；已经被考虑的先前存在的证据是以前的一部分，并且随着越来越多的证据积累，后者主要由证据而不是任何原始假设确定，前提是原始假设承认证据是什么的可能性提示。术语“先前”和“后”通常是相对于特定的基准或观察。

不知情的先验不知情的先验表示关于变量的模糊或一般信息。术语“不知情的先验”有些被称为误称。这样的先验也可能被称为不是非常有前途的先验，即不是主观地引出的目标。

不知情的先验可以表达“客观”信息，例如“变量为正”或“变量小于某个限制”。确定不知情的先验的最简单和最古老的规则是“冷漠”的原则，它将所有可能性赋予相等的概率。在参数估计问题中，使用不知情的先验通常产生与传统统计分析不太大的结果，因为似然函数通常产生比不知情的先验的更多信息。

发现先验概率已经有一些尝试，即在某种意义上，由不确定性状态的性质逻辑需要的概率分布；这些是哲学争论的课题，贝叶斯大概分为两个：“客观的贝叶斯”，他们认为这样的先修存在于许多有用的情境，“主观的贝叶斯”谁相信在实践中，先验者通常代表主观的判断判断不能被严格证明（Williamson 2010）。也许对于客观的贝叶斯主义最有力的论据是Edwin T. Jaynes给出的，主要是基于对称性的后果和最大熵原理。

作为先验的一个例子，考虑一个人知道一个球隐藏在三个杯子A，B或C之一的情况下，但是没有关于其位置的其他信息。在这种情况下，p（A）= p（B）= p（C）= 1/3的均匀先验似乎是唯一合理的选择。我们可以看到，如果我们交换杯子的标签（“A”，“B”和“C”），问题依然如此。因此，选择一个先验的选择是奇怪的，其中标签的排列将导致我们对于哪个杯子将被发现的预测的改变；先验是唯一保留这种不变性的统一。如果一个人接受这个不变性原则，那么可以看出，统一之前是逻辑上正确的。应该指出的是，这个以前是“客观的”，是代表一种特定的知识状态的正确选择，但是不是客观的，而是作为一个观察者独立的世界特征：实际上球存在于一个特定的杯子下，如果有观察者对系统知识有限，那么在这种情况下说出概率也是有意义的。

一个更有争议的例子，杰恩斯发表了一个基于谎言组的论证（Jaynes 1968），这表明事先表示对概率的完全不确定性应该是霍尔丹之前的p-1（1-p）-1。杰恩斯给出的例子是在实验室中找到一种化学物质，并询问在反复实验中是否会溶解在水中。霍尔丹之前给出了p = 0和p = 1的最大重量，表明样品将溶解或不溶解，相等可能性。然而，如果已经观察到化学品的样品溶解在一个实验中，而不是溶解在另一个实验中，则先前将其更新为间隔[0,1]上的均匀分布。这是通过将贝叶斯定理应用于使用上述以前的一种溶解观察和不溶解观察的数据集而获得的。霍尔丹之前是一个不正确的事先分配（意味着它不整合到1），如果有限数量的观察结果给出相同的结果，那么将100%的概率内容放在p = 0或p = 1。哈罗德·杰夫雷斯（Harold Jeffreys）设计了一种系统的设计方法，用于为伯努利随机变量提供例如Jeffreys之前的p-1/2（1-p）-1/2设计不了解的适当先验[需要澄清不需要每个人都同意这一说法。

如果参数空间X具有保留我们的贝叶斯知识状态的自然组织结构（Jaynes，1968），则可以构建与哈尔度量成正比的先验。这可以被看作是在上面的例子中用于证明前三杯之前的均匀性的不变性原理的概括。例如，在物理学中，我们可能期望实验将给出相同的结果，而不管我们选择坐标系的原点。这导致X上的翻译组的组结构，其将先验概率确定为恒定不正确的先验。类似地，一些测量对于任意尺度的选择（例如，是否使用厘米或英寸，物理结果应该相等）自然不变。4

不正确的先验让事件相互排斥的。如果贝叶斯定理写为

那么很明显，如果所有先验概率P（Ai）和P（Aj）乘以给定常数，则将获得相同的结果；连续随机变量也是如此。如果分母中的总和收敛，则即使先前的值不存在，后验概率仍然将（或积分）为1，因此，先验者可能只需要以正确的比例来指定。进一步考虑这个想法，在许多情况下，以前的值的总和或积分可能甚至不需要是有限的，以获得后验概率的合理答案。在这种情况下，先前被称为不正确的。然而，如果先验不正确，则后验分布不需要是适当的分布。从事件B独立于所有Aj的情况就清楚了。

统计学家有时使用不正当的先验作为不知情的先验。例如，如果他们需要一个随机变量的平均值和方差的先验分布，则可以假设p（m，v）〜1 / v（对于v> 0），这表明平均值的任何值都是“ 可能“，并且正方差的值变为与其值成反比的”较不可能“。许多作者（Lindley，1973; De Groot，1937; Kass和Wasserman，1996）说明，由于它们不是概率密度，它们会冒出过度解释这些先验的危险。只要它们对所有观察结果有明确的定义，才能在相应的后验中找到唯一的相关性。56

其他相关知识先验概率的分类利用过去历史资料计算得到的先验概率，称为客观先验概率；

当历史资料无从取得或资料不完全时，凭人们的主观经验来判断而得到的先验概率，称为主观先验概率。

先验概率的条件先验概率是通过古典概率模型加以定义的，故又称为古典概率。古典概率模型要求满足两个条件：(1)试验的所有可能结果是有限的;(2)每一种可能结果出现的可能性(概率)相等。若所有可能结果的总数为N，随机事件A包括n个可能结果，那么随机事件A出现的概率为n/N。

先验概率与后验概率的区别先验概率不是根据有关自然状态的全部资料测定的，而只是利用现有的材料(主要是历史资料)计算的；后验概率使用了有关自然状态更加全面的资料，既有先验概率资料，也有补充资料；

先验概率的计算比较简单，没有使用贝叶斯公式；而后验概率的计算，要使用贝叶斯公式，而且在利用样本资料计算逻辑概率时，还要使用理论概率分布，需要更多的数理统计知识。

[科普中国]-先验概率

微信扫一扫：分享