跳到主要內容
搜尋
搜尋此網誌
Silver Death
分享
取得連結
Facebook
X
Pinterest
以電子郵件傳送
其他應用程式
7月 20, 2021
不同决策树的节点分裂指标
1.熵
entropy,熵,
不要混淆一个变量x的熵,还是y的熵。
一般监督学习中样本的熵,实际上就是y的熵。
熵是不纯度的度量,熵越大越不纯(正负例各一半),对于二分类X = 0 or 1,P(X=1)与entropy的函数图像
2.信息增益
信息增益就是减小的熵,信息增益是ID3算法的节点分裂指标
3.信息增益率
信息增益率 = 划分的信息增益/所用划分变量本身的熵(
这里的熵是变量x的熵,不是y的熵
),
Split(S,F)就是x本身的熵,这里计算熵所用的p就是x中各个categorical level的个数占比,这里容易混淆要当心!
信息增益率是C4.5的节点分裂指标
4.Gini Index(基尼指数)
当CART树用于分类问题时,不纯度用Gini Index来衡量
Gini Index中的p自然就是针对y的p
留言
熱門文章
9月 30, 2019
把cell从一个notebook复制到另一个notebook
10月 30, 2017
python调用win32api设置窗口位置和大小
留言
張貼留言