别被lift所欺骗,odds ratio/WOE/IV才值得信赖

我抓取了纯粹的bad good 数据集,这个时候坏人就远远多于好人,bad rate 高达78%,我们就假设bad rate是在80%,这个时候顶天模型某个分组可以达到100%,那所谓的lift就是1.25,所以lift这个值就是受到基数影响,同一个total bad rate的前提下,是可以比较的,不同的total bad rate没什么可比性。
有一个更好的例子说明上面的问题,假设我现在
2000 好人 500 坏人   bad rate 20% 数据集A
这个时候我把这500坏人复制出15份加入到原来的数据集,这个时候就是
2000 好人 8000 坏人 bad rate 80% 数据集B
假设在数据集A上某一变量的某一分组bad rate 10%,使得好坏比 odds = 9/1,这个时候odds ratio = (9/1)/(4/1) = 9/4,lift = 10%/20% = 0.5
则在数据集B上同一变量的同一分组好坏比 odds = 9/16,bad rete 64%,这个时候odds ratio = (9/16)/(1/4) = 9/4,lift = 64%/80% = 0.8
所以lift只能在同一bad rate水平下可以比较,通用的比较要用odds ratio,由于WOE = log(odds ratio),所以WOE也是可以进行通用比较的
还是上面那个例子,我们来考虑IV分量,后面WOE相同,前面的系数数据集A(450/2000-50/500) 数据集B(450/2000-800/8000),前面好人部分相同,后面因为复制了15份出来,相当于说分子分母同乘16,这个比例也是保持不变,所以IV同样不变。
还有一点可以说明IV是通用的,就是IV有一个通用的数值参考表。
综上odds ratio/WOE/IV才值得信赖,lift只有在相同bad rate下可以比较!

留言

熱門文章