版权归原作者所有,如有侵权,请联系我们

[科普中国]-稳健回归

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

基本介绍

稳健回归(robust regression)是将稳健估计方法用于回归模型,以拟合大部分数据存在的结构,同时可识别出潜在可能的离群点、强影响点或与模型假设相偏离的结构。当误差服从正态分布时,其估计几乎和最小二乘估计一样好,而最小二乘估计条件不满足时,其结果优于最小二乘估计。1

稳健性测度指标稳健性测度常用影响函数IF(influence function)及其扩展概念和崩溃点BP(breakdown point)。

影响函数也称影响曲线(influence curve),它表示给出分布为F的一个(大)样本,在任意点x
处加入一个额外观测后对统计量T的(近似或标准化的)影响。如x以1-δ(o≤δ≤1)的概率来自于既定分布F,则其来自于另一个任意污染分布△x的概率为δ,此时的混合分布为:

统计量T的影响函数就定义为:

粗略地说,影响函数IF(x;T,F)是统计量T在一个既定分布F下的一阶导数,其中点x是有限维数的概率分布空间的坐标。如果某个统计量的IF有界,我们就称此统计量具有极微小稳健性。从IF推导出的还有“过失误差敏感度”GES(gross error sensitivity)γ*,它作为主要的局部稳健性尺度,可用以度量固定大小的极微小污染对统计量导致的最大偏差,即F的微小扰动下T的稳定性。如果一个稳健统计量的渐近偏差其上界是有限的,即γ*(T,F)有界,此时称T满足B-robust(B表示偏差bias);另外一个从IF推导出的概念是IF的L2范数,即T的渐近方差 ,可作为基本的估计效率尺度。这两个范数都依赖于F,于是可视之为新的泛函,其微小变化下的稳定性(经恰当的标准化后)可由“偏差改变函数”CBF(change of bias function或change of biascurve)和“方差改变函数”CVF(change of variance function或change of variance curve)和“方差改变函数”CVF(change of variance function或change of variance curve)来度量。这两个函数的上确界范数又可以作为简单的总结量,分别称为“偏差改变敏感度”CBS(change of bias sensitivity)和“方差改变敏感度”CVS(change of variance sensitivity)。如果CVS有界,可称T满足V-robust(V表示方差variance)。从概念上讲.V-robust要强于B-robust。1

崩溃点崩溃点是一个全局稳健性尺度。其起初的定义由Hodges针对于单变量情况下位置参数的估计提出,后由Hampel将其推广到更一般情形,回归分析中相对较为实用的概念是Donoho和Huber所提出的它在有限样本条件下的表达:

其中Z为自变量与因变量组成的观测值空间, 为回归估计向量,偏差函数bias表示从Z空间的n个观测中任意替换任意大小的m个值以后(即考虑最坏情况下的离群数据),回归估计 所发生变化的上确界。不太严格地讲,回归估计的崩溃点就表示可使估计值 越过所有边界的过失误差最小比例。稍准确一点,它是距离模型分布的一个距离,超过此距离统计量就变得完全不可靠,且其值越小估计值越不稳健。1

常见稳健回归方法稳健回归估计主要包括基于似然估计的M类、基于残差顺序统计最某些线性变换的L类、基于残差秩次的R类及其广义估计和一些高崩溃点HBP(high breakdown point)方法。

R估计R估计是Jackel等学者提出一种非参数回归方法。该方法不将残差取平方,而是将残差的秩次的某种函数作为离群点的降权函数引入估计模型,这样可以减小离群点对估计量的影响,从而达到稳健性要求。

R估计函数如下定义:

其中为残差,为残差的秩次,为残差秩次的得分函数。得分函数,其中最常用的是Wilcoxon得分函数:。代入上面定义式,得到此估计的目标函数为:

对其求极小,可得到相应回归系数的Wilcoxon R估计值。数值计算上其回归系数可采用梯度法实现,截距可由估计值残差的中位数得到。经证明此估计量是渐近无偏的,且满足位置、尺度同变性。

HBP回归常见的高崩溃点回归包括最小平方中位数(least median of squares)LMS回归LTS(least trimmed squares)回归S估计GS估计MM估计估计等。

LMS与LTS估计

考虑到经典LS估计的目标函数定义为使得各残差的平方和最小也就相当于使各残差平方的算术均数最小,而算术均数对于偏离正态分布的情况其估计显然是不稳健的,但在此情况下中位数却非常稳健,于是将LS估计的目标函数改为使各残差平方的中位数最小,得到的“最小平方中位数”估计应该是稳健的,即定义:

类似地,由于在单变量情况下的“调整均数”(trimmed mean)是稳健的,所以考虑在回归情形下如果把残差较大的点弃去不计,目标函数是使排序在前一部分较小的残差平方合计最小,可定义LTS估计如下:

式中的由各残差从小到大排序后得到,即。可以注意到该估计方法的崩溃点大小与h值的设定有关,其值越小,崩溃点越大,一般情况下取为(3n+p+1)/4时可兼顾崩溃点与估计效率。这两种估计方法刚提出时均采用的是重复抽样算法(resampling algorithm),之后的讨论和改进主要是考虑如何在尽量减少运算量的情况下得到近似或确切的估计值,如基于Chebyshev拟合的对偶型线性规划算法寻找可行解集(feasible set algorithm)等,目前多采用的是改进的快速算法。

遗憾的是由于其残差分布未知,所以其估计值的标准误没有显解式,此情况下可以考虑使用Bootstrap方法作统计推断。而多数情况下由于这两种估计具有较高的崩溃点,它被用来作离群点诊断或得到其他稳健估计方法的初值。例如提出这类方法的Rousseeuw等人建议可以在LTS或LMS估计基础上进行“再加权最小二乘估计”(reweighted least sum of squares),即弃去那些残差较大的点,对剩余数据进行普通最小二乘估计,或等价地将权重定义为:

进行加权最小二乘估计,其中为根据LTS或LMS估计得到的各点残差,s为残差的标准差估计值:

常数k与前述M估计中的1.345一样,对应于稳健性与估计效率的折中,一般建议取2.5。1

S估计

该法也由Rousseeuw和Yohai提出,所谓的S估计,它对回归系数的选择使得方程

的解有最小的s,这里函数通常选用Tukey的双平方函数

的积分,另外在前面方程中选择c0=1.548及β=0.5,这种选择主要是为了和正态误差一致。2