属性
属性: 一个数据字段,表示数据对象的一个特征。(属性、维、特征、变量可以互换实用)1
标称属性标称意味着“与名称相关”;标称属性的值是一些符号或失误的名称。每个只代表某种类别、编码或者状态,因而标称属性又被堪称是分类的。例如,人的属性->头发颜色(黑、白、棕、红、黄...)和婚姻状况(未婚、已婚、离异...)属于标称属性。
标称属性值可以用数字表示,如1,2,3等;但是这些值并不具有有意义的序,并且不是定量的,因而这种属性的均值、中位数是没有意义的。众数是有意义的。
二元属性二元属性是一种标称属性,只有两种类别(状态):0和1,通常0表示该属性不出现,1表示出现。又称为布尔属性(true 和 false)。
二元属性又分对称的和非对称的: 对称指两种状态具有同等价值且相同的权重,如性别(男、女);非对称是指状态的结果不是同样重要的,如病毒化验结果(阳性、阴性)。
序数属性序数属性的可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。序数属性通常用于等级评定调查。
标称、二元和序数属性都是定性的,他们描述对象的特征,而不给出实际大小或数量。
定性属性的值通常是代表类别的词。
数值属性数值属性是定量的,他是可度量的量,用证书或实数值表示,数值属性可以是区间标度的或比率标度的。
区间标度属性:属性用相等的单位尺度度量。区间熟悉的值有序,例如: 20度,15度(温度属性);
比率标度属性:具有固定零点的数值属性,即一个值是另一个的倍数(比率)。比率值也是有序的,可以计算值之间的差、也能计算均值、中位数、众数。
离散属性与连续属性机器学习领域开发的分类算法通常把属性分类成离散或连续的。
离散属性:具有有限或无限可数个值,可以用或不用整数表示,如头发颜色、婚姻状况都是有限个值,是离散的。
离散值属性机器学习领域开发的分类算法通常把属性分成离散的或连续的。每种类型都可以用不同的方法处理。离散属性具有有限或无限可数个值,可以用或不用整数表示。属性hair_color、smoker、medical_test和drink_size都有有限个值,因此是离散的。注意,离散属性可以具有数值值。如对于二元属性取0和1,对于年龄属性取0到110。如果一个属性可能的值集合是无限的,但是可以建立一个与自然数的一一对应,则这个属性是无限可数的。例如,属性customer_ID是无限可数的。顾客数量是无限增长的,但事实上实际的值集合是可数的(可以建立这些值与整数集合的一一对应)。邮政编码是另一个例子。
如果属性不是离散的,则它是连续的。在文献中,术语“数值属性”与“连续属性”通常可以互换地使用。(这可能令人困惑,因为在经典意义下,连续值是实数,而数值值可以是整数或实数。)在实践中,实数值用有限位数字表示。连续属性一般用浮点变量表示。1