相对熵- · 科普中国网

理论

定义

设是随机变量上的两个概率分布，则在离散和连续随机变量的情形下，相对熵的定义分别为2：

$%5Cbegin%7Barray%7D%7Bl%7D%20%5Cdisplaystyle%5Cmathrm%7BKL%7D%5Cleft%28P%5Cleft%5C%7CQ%5Cright.%5Cright%29%3D%5Csum%7BP%5Cleft%28x%5Cright%29%5Clog%7B%5Cfrac%7BP%5Cleft%28x%5Cright%29%7D%7BQ%5Cleft%28x%5Cright%29%7D%7D%7D%5C%5C%20%5C%5C%20%5Cdisplaystyle%5Cmathrm%7BKL%7D%5Cleft%28P%5Cleft%5C%7CQ%5Cright.%5Cright%29%3D%5Cint%7BP%5Cleft%28x%5Cright%29%5Clog%7B%5Cfrac%7BP%5Cleft%28x%5Cright%29%7D%7BQ%5Cleft%28x%5Cright%29%7D%7Ddx%7D%20%5Cend%7Barray%7D$

推导

在信息理论中，相对熵是用来度量使用基于的编码来编码来自的样本平均所需的额外的比特个数。典型情况下，表示数据的真实分布，表示数据的理论分布，模型分布，或的近似分布。给定一个字符集的概率分布，我们可以设计一种编码，使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是，对，其出现概率为，那么其最优编码平均需要的比特数等于这个字符集的熵：

$H%28x%29%3D-%5Csum_%7Bx%5Cin%20X%7D%5E%7B%20%7DP%28x%29%5Clog%5Cfrac%7B1%7D%7BQ%28x%29%7D$

在同样的字符集上，假设存在另一个概率分布，如果用概率分布的最优编码（即字符的编码长度等于 $%5Clog%5Cfrac%7B1%7D%7BP%28x%29%7D$ ），来为符合分布的字符编码，那么表示这些字符就会比理想情况多用一些比特数。相对熵就是用来衡量这种情况下平均每个字符多用的比特数，因此可以用来衡量两个分布的距离，即：

$%5Cmathrm%7BKL%7D%28P%5C%7CQ%29%3D-%5Csum_%7Bx%20%5Cin%20X%7DP%28x%29%5Clog%5Cfrac%7B1%7D%7BP%28x%29%7D%2B%5Csum_%7Bx%20%5Cin%20X%7DP%28x%29%5Clog%5Cfrac%7B1%7D%7BQ%28x%29%7D%3D%5Csum_%7Bx%20%5Cin%20X%7DP%28x%29%5Clog%5Cfrac%7BP%28x%29%7D%7BQ%28x%29%7D$

计算实例

这里给出一个对相对熵进行计算的具体例子。假如一个字符发射器，随机发出0和1两种字符，真实发出概率分布为A，但实际不知道A的具体分布。通过观察，得到概率分布B与C，各个分布的具体情况如下：

可以计算出得到如下： $%5Cbegin%7Barray%7D%7Bl%7D%20%5Cdisplaystyle%5Cmathrm%7BKL%7D%5Cleft%28A%5Cleft%5C%7CB%5Cright.%5Cright%29%3D1%2F2%5Clog%28%5Cfrac%7B1%2F2%7D%7B1%2F4%7D%29%2B1%2F2%5Clog%28%5Cfrac%7B1%2F2%7D%7B3%2F4%7D%29%3D1%2F2%5Clog%284%2F3%29%5C%5C%20%5C%5C%20%5Cdisplaystyle%5Cmathrm%7BKL%7D%28A%5Cleft%5C%7CC%5Cright.%29%3D1%2F2%5Clog%28%5Cfrac%7B1%2F2%7D%7B1%2F8%7D%29%2B1%2F2%5Clog%28%5Cfrac%7B1%2F2%7D%7B7%2F8%7D%29%3D1%2F2%5Clog%2816%2F7%29%20%5Cend%7Barray%7D$

由上式可知，按照概率分布进行编码，要比按照进行编码，平均每个符号增加的比特数目少。从分布上也可以看出，实际上要比更接近实际分布（因为其与分布的相对熵更小）。

吉布斯不等式**（Gibbs inequality）**

由于是凸函数（convex function），所以根据相对熵的定义有： $%5Cmathrm%7BKL%7D%28P%5C%7CQ%29%20%3D%5Csum_%7Bx%20%5Cin%20X%7DP%28x%29%5Clog%5Cfrac%7BP%28x%29%7D%7BQ%28x%29%7D%3D-E%5Cleft%5B%5Clog%5Cfrac%7BQ%28x%29%7D%7BP%28x%29%7D%5Cright%5D%5Cge%20-%5Clog%5Cleft%5B%5Csum_%7Bx%5Cin%20X%7D%20P%28x%29%5Cfrac%7BQ%28x%29%7D%7BP%28x%29%7D%5Cright%5D%3D-%5Clog%5Cleft%5B%5Csum_%7Bx%20%5Cin%20X%7DQ%28x%29%5Cright%5D%3D0$ 由上式可知，相对熵是恒大于等于0的。当且仅当两分布相同时，相对熵等于0。

性质

非负性：由吉布斯不等式可知，相对熵恒为非负：，且在时取04。

不对称性：相对熵是两个概率分布的不对称性度量，即。在优化问题中，若表示随机变量的真实分布，表示理论或拟合分布，则被称为前向KL散度（forward KL divergence），被称为后项KL散度（backward KL divergence）。前向散度中拟合分布是KL散度公式的分母，因此若在随机变量的某个取值范围中，拟合分布的取值趋于0，则此时KL散度的取值趋于无穷。因此使用前向KL散度最小化拟合分布和真实分布的距离时，拟合分布趋向于覆盖理论分布的所有范围。前向KL散度的上述性质被称为“0避免（zero avoiding）”。相反地，当使用后向KL散度求解拟合分布时，由于拟合分布是分子，其0值不影响KL散度的积分，反而是有利的，因此后项KL散度是“0趋近（zero forcing）”的。

与信息理论中其它概念的关系：对前向KL散度，其值等于真实分布与拟合分布的交叉熵与真实分布的信息熵之差：

应用

相对熵可以衡量两个随机分布之间的距离，当两个随机分布相同时，它们的相对熵为零，当两个随机分布的差别增大时，它们的相对熵也会增大。所以相对熵可以用于比较文本的相似度，先统计出词的频率，然后计算相对熵。另外，在多指标系统评估中，指标权重分配是一个重点和难点，也通过相对熵可以处理5。