模型变量分布变化和通过率的关系

对于评分卡模型,模型变量分布变化了,我们可以知道线性部分Z的均值是如何变化,这里先解释一下为什么知道均值的变化,推导见下图



但是我们没法推断出通过率的变化,因为整体的分布不是固定的,而通过率是具体到某个阈值,比如变量分布变化后均值变小了,通过率在这个阈值上可能并不能提升,如图,当阈值在0.2的时候train的通过率就高于test,但是test的分布会好于train,但是因为均值始终是变小的,所以随着阈值增大,test通过率就会超越train,

通过率降低,检查程序逻辑没问题,那就是满足规定cutoff的百分比少了。我们接触到的情况,一般来说,分布变差,通过率往往会变低,阈值也是一个因素,极低的阈值往往不好说(因为太局部了),一个比较大的阈值往往可以保证通过率也变低(与总体均值变差相对应)。

关于CMCC这个事例,活跃天数这个变量的最好那个bin,由于8月份数据全为0,所以10/11/12月这个变量没有最好的bin,这个时候,我们知道整体的均值变大,这个时候我们能不能说明在某个固定阈值下,通过率降低?不一定,比如之前通过的人中就根本没有活跃天数最好bin的人,这时候变差也不影响通过率,一般不会出现这种情况,除非和某个变量反向共线性抵消了部分,再比如活跃天数变差一个bin,不足以让通过域中最边缘的人落入拒绝域,可以去考察这两种情况,这个变量权重很小,且最好bin和次好bin差距不大时有可能发生。一般来说都是会影响通过率的。
感觉具体问题具体分析,一个变量变化,控制其他不变的时候,比较好分析,如果两个变量呢?
我领悟出来了,所以还和一个因素有关系,就是整体分布的异变程度,而整体分布的异变程度又和存在变化的变量个数有关系,所以,综上,模型变量分布变化和通过率大致有三个因素决定:
1.分布变化,导致评分均值变化
2.通过阈值设定的高低
3.整体分布的变异程度(和变化的变量个数存在关系)
所以实践中,我们要综合考虑这3个要素,且只能定性地对通过率进行一些估计!并没有绝对!比如一般一个较大阈值,很多变量分布变差,这个时候通过率往往是降低的!




留言

熱門文章