[科普中国]-有序分类变量-

有序分类变量，是指其取值的各类别之间存在着程度上的差别，给人以“半定量”的感觉，因此也称为等级变量1。是根据取值特征而分类的一种定性变量。

背景变量（variable）是观测单位的某种特征或属性，变量的观测值就是所谓的变量值，有时也称数据或资料(data)。更准确地讲，数据或资料是由具有若干变量值的观测单位所组成的。例如在调查中常规问及的问题：你年龄多大？是什么学历？结婚了吗？有工作吗？家里有多少人？对应的变量就是：年龄，学历，婚姻状况，就业情况，家庭人口数。2

分类变量可分为无序变量和有序变量两类。

无序分类变量（unordered categorical variable）是指所分类别或属性之间无程度和顺序的差别。，它又可分为①二项分类，如性别（男、女），药物反应（阴性和阳性）等；②多项分类，如血型（O、A、B、AB），职业（工、农、商、学、兵）等。对于无序分类变量的分析，应先按类别分组，清点各组的观察单位数，编制分类变量的频数表，所得资料为无序分类资料，亦称计数资料。

含义有序分类变量（ordinal categorical variable）是统计学中，根据取值特征而分类的一种定性变量。所谓有序分类变量，是指其取值的各类别之间存在着程度上的差别，给人以“半定量”的感觉，因此也称为等级变量，如学历（文盲、小学、初中、高中、大学、研究生等）。2对于有序分类变量，应先按等级顺序分组，清点各组的观察单位个数，编制有序变量（各等级）的频数表，所得资料称为等级资料。

示例有序多分类变量是很常见的变量形式，通常在变量中有多个可能会出现的取值，各取值之间还存在等级关系。比如高血压分级（0=正常，1=正常高值，2=1级高血压，3=2级高血压，4=3级高血压）、尿蛋白水平（0=－，1=±，2=+，3=++，4=+++）等等。与无序多分类变量不同，有序多分类变量的各个选项直接呈现向一个方向递增或递减的关系。

当Logistic回归中需要将有序多分类变量代入自变量X时，我们如何处理呢？通常大家会习惯性的将有序多分类变量直接代入。这当然不是不对，但是有个前提条件，就是该有序多分类变量每改变一个单位的时候，结局风险增加倍数相同。每改变一个等级，对结局贡献相同或相似时，可以简单的用个例子和图表示一下。比如我们关心研究对象是否接受治疗，也就是研究对象中，有一部分人出现了“接受治疗”这个结局。可能影响结局的变量之一是教育程度3。

本词条内容贡献者为:

尚华娟 - 副教授 - 上海财经大学

[科普中国]-有序分类变量

微信扫一扫：分享