[科普中国]-可决系数- · 科普中国网

总变异的分割

一个特定数值对于其平均值的偏离，称为离差，而一变量的各数值对于其平均值的偏离，称为变异。通常用离差平方和来描述变异程度。离差平方和又简称平方和(Sum of square)。在研究单变量的离中趋势描述时，我们已经接触了离差平方和的概念，样本标准差的定义公式中就直接使用了上述概念。平方和被相应的自由度去除，得到平均平方，简称为均方(Mean square)。样本标准差就是被自由度(n-1)所平均的x对于离差均方的算术平方根。下面我们将应用平方的概念去开发测度一个回归方程拟合协变关系效果的量数。

先结合图1分析一下在因变量y倚自变量x回归前提下y值的离差。y值对其平均数的离差可以看作是由两部分合成的，一是y的回归拟合值对平均数的离差()，另一是y值对于拟合值的离差()。前者呈线性变化，在时，=0，x取值越偏离，这一离差就越大，存在着这样的函数关系：

这一离差完全是由y倚x的回归关系决定的，因而称为已解释离差(Explained deviation)。后者呈随机变化，与y倚x的回归关系无关，因而称为未解释离差(Unexplained deviation)。总离差与已解释离差、未解释离差的关系写成公式是：。

总离差的平方和，简称总平方和，用SST表示，又称作总变差(Total variation)。已解释离差的平方和，简称回归平方和，用SSR表示，又称作已解释变差(Explained variation)。未解释离差的平方和，简称误差平方和，用SSE表示，又称作未解释变差(Unexplained variation)。可以证明，由总离差的分解公式能推出总变差的分解公式：，或：SST=SSR+SSE。将上式两边都除以，得：已解释变差/总变量 +未解释变差/总变差=1，即

这样我们就把在绝对数意义上对总变差的分割，改换成在相对数意义上对总变差的分割，这对于研究回归方程的拟合效果很有帮助1。

样本可决系数从公式(1)看到，若以总变差为基数，相对数表示的是回归关系已经解释的y值变异在其总变异中所占的比率，而相对数则表示回归关系不能解释的y值变异在总变异中所占的比率。前者正是我们要寻求的测度回归方程拟合y对x的协变关系效果的量数，称为可决系数(Coefficient of determination)。产生于样本数据的可决系数是样本可决系数，用r2表示。在总体回归分析中，相对于样本可决系数的是总体可决系数，用表示。因此，样本可决系数的定义公式是1：

相关系数与可决系数的关系由可以推导到所以存在着这样的关系：可决系数是相关系数的二次幂。因此，也可以在求得可决系数的基础上计算相关系数，方法是将可决系数开平方，至于平方根的符号，则取与回归方程斜率b相同的符号。正是因为存在这样的关系，我们用r2作为可决系数的符号，而没有另用别的字母。

即然r和r2两者问存有这样的联系，那么它们的描述分析作用是否相同呢?我们认为，尽管两者对变量间协变关系的解释有相通的一面，但是两者间的区别也是不容忽视的。

首先，可决系数是在拟合回归方程后进一步评价它的解释作用，而回归分析有其具体目的和假定前提。相关系数直接用于相关分析，它只描述变量间协变关系的密切程度，而不问哪个是自变量，哪个是因变量，相关分析也有3条假设前提：

(1) X和Y均为随机变量。

(2) X和Y均服从正态分布，两者不必相互独立。

(3) 对于X所有取值，Y值的标准差都相等；对于Y所有取值，X值的标准差也都相等。

这样看来，可决系数和相关系数所描述的问题性质不尽相同。

其次，可决系数取已解释变差对总变差的比率形式，在运算上有直接的解释意义。相关系数是沿交叉乘积和——协方差——相关系数的思想开发出来的，其最终公式形式不好作直接的解释。尽管如此，在许多应用中，如果两者都可以出现，我们还是更多地注意到r 值1。

总体可决系数总体可决系数是在总体中关于Y总变异中总体回归方程已经解释的变异所占比重的描述量数。它用下式表示

在的定义公式中，是围绕总体回归直线的方差，是围绕总体平均数的方差。作为总体参数，通常视为未知的，有待于用样本统计量去估计。将和的无偏估计量分别代入上式，即得到估计量的公式

不难发现，公式（2）与公式（4）略有不同，前者采用的是平方和比率的形式，而后者采用的是均方和比率的形式。

称为经调整样本可决系数(Adjusted coefficient of determination)，它用于对总体可决系数进行点估计。经调整可决系数平抑了方程中自变量数目的对解释作用的夸大，尤其在多元回归分析中，因为对同一样本k个自变量的回归方程总比k-1个自变量的回归方程求得已解释变差小，经调整的可决系数在k个自变量的方程中已解释变差除以(n-k-1)，而在(k-1)个自变量的方程中则除以(n-k-2)1。