理论
定义
设 是随机变量 上的两个概率分布,则在离散和连续随机变量的情形下,相对熵的定义分别为2:
推导
在信息理论中,相对熵是用来度量使用基于 的编码来编码来自 的样本平均所需的额外的比特个数。典型情况下, 表示数据的真实分布, 表示数据的理论分布,模型分布,或 的近似分布。给定一个字符集的概率分布,我们可以设计一种编码,使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是 ,对 ,其出现概率为 ,那么其最优编码平均需要的比特数等于这个字符集的熵:
在同样的字符集上,假设存在另一个概率分布 ,如果用概率分布 的最优编码(即字符 的编码长度等于 ),来为符合分布 的字符编码,那么表示这些字符就会比理想情况多用一些比特数。相对熵就是用来衡量这种情况下平均每个字符多用的比特数,因此可以用来衡量两个分布的距离,即:
计算实例
这里给出一个对相对熵进行计算的具体例子。假如一个字符发射器,随机发出0和1两种字符,真实发出概率分布为A,但实际不知道A的具体分布。通过观察,得到概率分布B与C,各个分布的具体情况如下:
可以计算出得到如下:
由上式可知,按照概率分布进行编码,要比按照进行编码,平均每个符号增加的比特数目少。从分布上也可以看出,实际上要比更接近实际分布(因为其与分布的相对熵更小)。
吉布斯不等式**(Gibbs inequality)**
由于是凸函数(convex function),所以根据相对熵的定义有: 由上式可知,相对熵是恒大于等于0的。当且仅当两分布相同时,相对熵等于0。
性质
非负性:由吉布斯不等式可知,相对熵恒为非负: ,且在 时取04。
不对称性:相对熵是两个概率分布的不对称性度量,即 。在优化问题中,若 表示随机变量的真实分布, 表示理论或拟合分布,则 被称为前向KL散度(forward KL divergence), 被称为后项KL散度(backward KL divergence)。前向散度中拟合分布是KL散度公式的分母,因此若在随机变量的某个取值范围中,拟合分布的取值趋于0,则此时KL散度的取值趋于无穷。因此使用前向KL散度最小化拟合分布和真实分布的距离时,拟合分布趋向于覆盖理论分布的所有范围。前向KL散度的上述性质被称为“0避免(zero avoiding)”。相反地,当使用后向KL散度求解拟合分布时,由于拟合分布是分子,其0值不影响KL散度的积分,反而是有利的,因此后项KL散度是“0趋近(zero forcing)”的。
与信息理论中其它概念的关系:对前向KL散度,其值等于真实分布与拟合分布的交叉熵与真实分布的信息熵之差:
应用
相对熵可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵可以用于比较文本的相似度,先统计出词的频率,然后计算相对熵。另外,在多指标系统评估中,指标权重分配是一个重点和难点,也通过相对熵可以处理5。