[科普中国]-邦弗朗尼原理-

**邦弗朗尼原理：**假定人们有一定量的数据并期望从该数据中找到某个特定类型的事件，即使数据完全随机，也可以期望该类型事件会发生。邦弗朗尼校正定理给出一个统计学上可行的方法来避免在搜索数据时出现的大部分“臆造”的正响应。例如：如果考察的时间和范围过广，会很容易发现一些人同住一家酒店，而两者没有什么关系。

简介在考察数据时，如果将某些对象视为数据的有趣特征，而这些对象中的许多都可能会在随机数据中出现，那么这些显著的特征就不可依赖。对于那些实际中并不充分罕见的特征来说，上述观察结果限制了从这些数据特征中进行挖掘的能力。1

解释假定人们有一定量的数据并期望从该数据中找到某个特定类型的事件。即使数据完全随机，也可以期望该类型事件会发生。随着数据规模的增长，这类事件出现的数目也随之上升。任何随机数据往往都会有一些不同寻常的特征，这些特征看上去虽然很重要，但是实际上并不重要，除此之外，别无他由，从这个意义上说，这些事件的出现纯属"臆造"。统计学上有一个称为邦弗朗尼校正（Bonferronicorrection）的定理，该定理给出一个在统计上可行的方法来避免在搜索数据时出现的大部分"臆造"正响应。这里并不打算介绍定理的统计细节，只给出一个非正式的称为邦弗朗尼原理的版本，该原理可以帮助我们避免将随机出现看成真正出现。在数据随机性假设的基础上，可以计算所寻找事件出现次数的期望值。如果该结果显著高于你所希望找到的真正实例的数目，那么可以预期，寻找到的几乎任何事物都是臆造的，也就是说，它们是在统计上出现的假象，而不是你所寻找事件的凭证。上述观察现象是邦弗朗尼原理的非正式阐述。

简单的说，你假设：特定事件的发生预示着特定内容。如果特定事件(例如：在酒店中聚会)发生的概率乘以样本空间得到的数目远远大与你期望的特定内容(例如：歹徒)的数目，那么你的假设是错的。

在大规模数据挖掘与分布式处理中的应用数据挖掘是数据“模型”的发现过程统计学家认为数据挖掘就是统计模型的构建过程，而这个统计模型指的就是可见数据所遵从的总体分布。

模型建模方法可以描述为下列两种做法之一：

（1）对数据进行简洁的近似汇总描述；——数据汇总

（2）从数据中抽取出最突出的特征来代替数据并将剩余内容忽略。——特征提取

数据汇总（1）PageRank：一种Web结构上的随机游走者在任意给定时刻处于该页的概率。PageRank的一个非常好的特性就是它能够很好地反映网页的重要性，即典型用户在搜索时期望返回某个页面的程度。

（2）聚类：数据被看成是多维空间下的点，空间中相互临近的点将被赋予相同的类别。

特征提取基于特征的模型会从数据中寻找某个现象的最极端样例，并使用这些样例来表示数据。

（1）频繁项集：该模型适用于多个小规模项集组成的数据。如某些物品会被顾客同时购买，例如汉堡和番茄酱，这些物品就组成了所谓的项集。（购物篮问题）

（2）相似项：很多时候，数据往往看上去相当于一些列集合，我们的目标是寻找那些共同元素比较高的集合对。例如，将在线商店的顾客看成是其已购买的商品的集合。寻找相似的顾客群，并把他们当中大部分人购买过的商品也推荐给他。该过程称为协同过滤。·

避免将随机出现看成真正出现根据邦弗朗尼原理，在数据随机性假设的基础上，可以计算所寻找时间出现次数的期望值。如果该结果显著高于你所希望找到的真正实例的数目，那么可以预期，寻找到的几乎任何事物都是臆造的，也就是说，它们是在统计上出现的假象，而不是你所寻找事件的凭证。

例如，只需要寻找那些几乎不可能出现在随机数据中的罕见事件来发现恐怖分子即可。

本词条内容贡献者为:

王慧维 - 副研究员 - 西南大学