可解释变异(英语:explained variation)在统计学中是指给定数据中的变异能被数学模型所解释的部分。通常会用方差来量化变异,故又称为可解释方差(explained variance)。
简介可解解变异外,总变异的剩余部分被称为未解释变异(unexplained variation)或残差(residual)。
线性回归中的决定系数即为可解释变异占总变异的比率。1
变异变异又可理解为离散程度。
在统计学里,离散程度(dispersion)是指一个分布压缩和拉伸的程度。离散程度主要有方差、标准差和四分位距等。
离散程度与位置或者集中趋势相对。1
方差方差(Variance),应用数学里的专有名词。在概率论和统计学中,一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。这里把复杂说白了,就是将各个误差将之平方(而非取绝对值,使之肯定为正数),相加之后再除以总数,透过这样的方式来算出各个数据分布、零散(相对中心点)的程度。继续延伸的话,方差的算术平方根称为该随机变量的标准差(此为相对各个数据点间)。1
标准差标准差(又称标准偏差、均方差,英语:StandardDeviation,缩写SD),数学符号σ(sigma),在概率统计中最常使用作为测量一组数值的离散程度之用。标准差定义:为方差开算术平方根,反映组内个体间的离散程度;标准差与期望值之比为标准离差率。1
四分位距四分位距(interquartile range, IQR)。是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的分别(即的差距)。与变异数、标准差一样,表示统计资料中各变量分散情形,但四分差更多为一种稳健统计(robust statistic)。1
决定系数决定系数(英语:coefficient of determination,记为R或r)在统计学中用于度量因变量的变异中可由自变量解释部分所占的比例,以此来判断统计模型的解释力。
对于简单线性回归而言,决定系数为样本相关系数的平方。当加入其他回归自变量后,决定系数相应地变为多重相关系数的平方。
假设一数据集包括y1,...,yn共n个观察值,相对应的模型预测值分别为f1,...,fn。定义残差ei=yi−fi,平均观察值为
于是可以得到总平方和
回归平方和
残差平方和
由此,决定系数可定义为2
本词条内容贡献者为:
王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所