两组bad rate的比较

经常会比较不同两组之间的bad rate
1、是否有显著差异,可以使用z检验
2、两个bad rate的差异度量,比较合理的是odds ratio,odds ratio的好处是不受到基础bad rate的影响,比如2%和4%,bad rate ratio是2倍,60%和90%,bad rate ratio是1.5倍,可不可以说第1组差距大?不可以,因为第二组因为基础bad rate就很高了,不可能bad rate ratio达到2倍,这个时候去算odds ratio,第一组odds ratio才2.04,而第二组odds ratio高达6,第二组差距明显大于第一组。
3、可否用IV来评价差距?看下面这个例子

某变量把样本分成两组,>=3第一组,<=2第二组,两组的bad rate固定,第二组的样本数变为原来的10%,这个时候变量的IV发生了很大的下降,IV大小是受到各组size的影响的,两组size不均衡的话,IV是比较小的,即便bad rate的odds ratio比较大。
对于两组的情况,gi2gt-bi2bt是相反数,所以以前一些blog上写的把gi2gt-bi2bt视作权重,就有点扯了。如果两组size不均衡的话,主要是会导致有1组woe会很小,因为该组的gi2gt和bi2bt会很大,他们的ratio就比较接近于1,ln后(即WOE)比较小,该组IV分量就很小,另外一组,虽然woe变大,但是gi2gt-bi2bt减小的更凶,该组的iv分量也在减小,所以iv不适合比较两组bad rate的差异。
IV的作用是什么呢?
评价变量整体的预测能力?对,评价变量整体预测能力,IV大更适合放入模型。

留言

熱門文章