回归,regression,最初是指人的身高的回归,也就是说,个子高的父母倾向于生相对矮的孩子,个子矮的父母倾向于生个子相对高的孩子,从而使得后代的身高朝向某一个中间水平回归。1后来,回归被理解为一种统计方法,用来研究一些自变量如何影响因变量。
背景回归仅仅是一种研究变量之间相关关系(非因果)的方法,当被解释变量为连续变量时,称为【回归】,反之为属性变量时,称为【分类】2。
示例当父亲身高很高时,他的儿子的身高一般不会比父亲身高更高;同样如果父亲很矮,他的儿子也一般不会比父亲矮,而会向一般人的均值靠拢。这句话可以理解为遗传对身高的影响是递减的,也服从某一个分布。
比如对社会上的人,身高服从倒钟型的正态分布,在均值(比如说1.7米)周围的人较多,离得远的(比如小于1.41米或大于2.26米)人较少。反映到概率上就是,对某一个人,长大后身高在1.6-1.8米之间的概率较大,小于1.6或大于1.8的概率较小。当然不是所有人都满足同一个分布,可以适量微调:比如父母身高都较高,他们孩子的倒钟型均值可能就大一点。统计学意义就是不管影响身高的因素有多少,最后出来的结果都满足模型。
回归命题,当父亲身高很高时,他的儿子的身高一般不会比父亲身高更高。概率上讲就是,当父亲身高较高时(2.26米),儿子身高仍然满足正态分布,但均值会高一些(比如可能是1.9、2米等),此时儿子身高仍然满足:在均值周围的概率大,离均值远(大于2.26米)的概率小(比如只有10%)。反过来身高小于较高值(2.26米)的概率就非常大了(可能有90%)3。
本词条内容贡献者为:
尚华娟 - 副教授 - 上海财经大学