不同决策树的节点分裂指标

1.熵
entropy,熵,不要混淆一个变量x的熵,还是y的熵。
一般监督学习中样本的熵,实际上就是y的熵。

熵是不纯度的度量,熵越大越不纯(正负例各一半),对于二分类X = 0 or 1,P(X=1)与entropy的函数图像
2.信息增益
信息增益就是减小的熵,信息增益是ID3算法的节点分裂指标

3.信息增益率
信息增益率 = 划分的信息增益/所用划分变量本身的熵(这里的熵是变量x的熵,不是y的熵),

Split(S,F)就是x本身的熵,这里计算熵所用的p就是x中各个categorical level的个数占比,这里容易混淆要当心!
信息增益率是C4.5的节点分裂指标

4.Gini Index(基尼指数)
当CART树用于分类问题时,不纯度用Gini Index来衡量

Gini Index中的p自然就是针对y的p





留言

熱門文章