[科普中国]-皮尔逊相关系数-

简介

在自然科学领域中，皮尔逊相关系数广泛用于度量两个变量之间的相关程度，其值介于-1与1之间。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。这个相关系数也称作“皮尔逊积矩相关系数”。

图1中，几组的点集，以及各个点集中和之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向（第一排），而不是相关性的斜率（中间），也不是各种非线性关系（第三排）。请注意：中间的图中斜率为0，但相关系数是没有意义的，因为此时变量是0。

定义

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商：

上式定义了总体相关系数，常用希腊小写字母作为代表符号。估算样本的协方差和标准差，可得到皮尔逊相关系数，常用英文小写字母代表：

亦可由样本点的标准分数均值估计，得到与上式等价的表达式：

其中、及分别是对样本的标准分数、样本平均值和样本标准差。

数学特性

总体和样本皮尔逊系数的绝对值小于或等于1。如果样本数据点精确的落在直线上（计算样本皮尔逊系数的情况），或者双变量分布完全在直线上（计算总体皮尔逊系数的情况），则相关系数等于1或-1。皮尔逊系数是对称的：。

皮尔逊相关系数有一个重要的数学特性是，因两个变量的位置和尺度的变化并不会引起该系数的改变，即它该变化的不变量(由符号确定)。也就是说，我们如果把移动到和把Y移动到，其中a、b、c和d是常数，并不会改变两个变量的相关系数（该结论在总体和样本皮尔逊相关系数中都成立）。我们发现更一般的线性变换则会改变相关系数：

由于，，也类似，并且

故相关系数也可以表示成

对于样本皮尔逊相关系数：

以上方程给出了计算样本皮尔逊相关系数简单的单流程算法，但是其依赖于涉及到的数据，有时它可能是数值不稳定的。

解释

皮尔逊相关系数的变化范围为-1到1。系数的值为1意味着X和Y可以很好的由直线方程来描述，所有的数据点都很好的落在一条直线上，且随着的增加而增加。系数的值为−1意味着所有的数据点都落在直线上，且随着的增加而减少。系数的值为0意味着两个变量之间没有线性关系。

更一般的, 我们发现，当且仅当和均落在他们各自的均值的同一侧，则的值为正。也就是说，如果和同时趋向于大于，或同时趋向于小于他们各自的均值，则相关系数为正。如果和趋向于落在他们均值的相反一侧，则相关系数为负。

1.几何学的解释

对于没有中心化的数据, 相关系数与两条可能的回归线和夹角的余弦值一致。

对于中心化过的数据 (也就是说, 数据移动一个样本平均值以使其均值为0)，相关系数也可以被视作由两个随机变量向量夹角的余弦值。

一些人倾向于是用非中心化的相关系数，比较如下：

例如，有5个国家的国民生产总值分别为 10, 20, 30, 50 和 80 亿美元。假设这5个国家 (顺序相同) 的贫困百分比分别为 11%, 12%, 13%, 15%, and 18% 。令x和y分别为包含上述5个数据的向量:x= (1, 2, 3, 5, 8) 和y= (0.11, 0.12, 0.13, 0.15, 0.18)。

利用通常的方法计算两个向量之间的夹角，未中心化的相关系数是：

我们发现以上的数据特意选定为完全相关：。于是，皮尔逊相关系数应该等于1。将数据中心化 (通过移动和通过移动) 得到和从中，