版权归原作者所有,如有侵权,请联系我们

[科普中国]-有序分类变量

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

有序分类变量,是指其取值的各类别之间存在着程度上的差别,给人以“半定量”的感觉,因此也称为等级变量1。是根据取值特征而分类的一种定性变量。

背景变量(variable)是观测单位的某种特征或属性,变量的观测值就是所谓的变量值,有时也称数据或资料(data)。更准确地讲,数据或资料是由具有若干变量值的观测单位所组成的。例如在调查中常规问及的问题:你年龄多大?是什么学历?结婚了吗?有工作吗?家里有多少人?对应的变量就是:年龄,学历,婚姻状况,就业情况,家庭人口数。2

分类变量可分为无序变量和有序变量两类。

无序分类变量(unordered categorical variable)是指所分类别或属性之间无程度和顺序的差别。,它又可分为①二项分类,如性别(男、女),药物反应(阴性和阳性)等;②多项分类,如血型(O、A、B、AB),职业(工、农、商、学、兵)等。对于无序分类变量的分析,应先按类别分组,清点各组的观察单位数,编制分类变量的频数表,所得资料为无序分类资料,亦称计数资料。

含义有序分类变量(ordinal categorical variable)是统计学中,根据取值特征而分类的一种定性变量。所谓有序分类变量,是指其取值的各类别之间存在着程度上的差别,给人以“半定量”的感觉,因此也称为等级变量,如学历(文盲、小学、初中、高中、大学、研究生等)。2对于有序分类变量,应先按等级顺序分组,清点各组的观察单位个数,编制有序变量(各等级)的频数表,所得资料称为等级资料。

示例有序多分类变量是很常见的变量形式,通常在变量中有多个可能会出现的取值,各取值之间还存在等级关系。比如高血压分级(0=正常,1=正常高值,2=1级高血压,3=2级高血压,4=3级高血压)、尿蛋白水平(0=-,1=±,2=+,3=++,4=+++)等等。与无序多分类变量不同,有序多分类变量的各个选项直接呈现向一个方向递增或递减的关系。

当Logistic回归中需要将有序多分类变量代入自变量X时,我们如何处理呢?通常大家会习惯性的将有序多分类变量直接代入。这当然不是不对,但是有个前提条件,就是该有序多分类变量每改变一个单位的时候,结局风险增加倍数相同。每改变一个等级,对结局贡献相同或相似时,可以简单的用个例子和图表示一下。比如我们关心研究对象是否接受治疗,也就是研究对象中,有一部分人出现了“接受治疗”这个结局。可能影响结局的变量之一是教育程度3。

本词条内容贡献者为:

尚华娟 - 副教授 - 上海财经大学