信息熵相对熵交叉熵

6月 22, 2018

信息熵相对熵交叉熵

1.信息：-logPi，事件发生的概率越大，信息量越小（理所当然的事情没提供什么信息）；事件发生的概率越小，信息量越大（什么，怎么可能？信息量有点大）。有点抽象，不完全等同于信息量的文字意思。
2.熵：信息量的期望，-∑PilogPi （信息和熵通常用的是2为底的对数，也可以用其他底）
3.相对熵：又叫KL散度(Kullback-Leibler divergence)，用于衡量两个分布的差异。一个随机变量x的两个分布p和q，相对熵（这里一般是自然对数底）

其意义在于当用q这个分布去替代p时，需要额外的信息增量，如果q就等于p，那么需要的信息增量就是0。相对熵的公式和PSI非常像，但是前面只有p(xi)参与，所以q代替p和p代替q相对熵是不一样的，所以这个KL散度可以公平地衡量两个分布的差异吗？算相对熵的时候注意，比如x是一条记录，他只能属于三个分类中的某一个分类，他属于三个分类的真实值是[1,0,0]，预测值是[0.7,0.2,0.1]，然后就可以算一个相对熵Di，但是可能一个数据集有很多条记录，所以总的相对熵就是∑Di。另外一个例子，x是一个叫学历的变量，取值有{小学,中学,大学}，概率分别为[0.1,0.4,0.5]，然后另一个客群的学历的分布是[0.2,0.2,0.6]，这个时候两个分布可以算一个相对熵
4.交叉熵：交叉熵就是把上面相对熵公式展开