模型probability转分数
prob转换成score分数,实际上转的是ln(odds),也就是ln(p/(1-p)),标准的方式设置三个参数:基础score及其对应的基础odds,以及odds变成2odds减少的分数(这里假设通常的情况,分数越大,probability越小,所以这里是减少),具体转换方式和推到如下:
本质就是一元的线性变换,如果现在要设计一个300到900的分数,实际上通过理论上的ln(min_odds)映射到900和ln(max_odds)映射到300,解二元一次方程组就能求出A和B,对于评分卡能很明确的知道min_odds和max_odds,但是对于机器学习算法,min_odds和max_odds很难得到,因为算法机制较复杂,只能观测到样本上的最小最大,所以对于机器学习似乎更适用标准的确定bs/bo/PDO的转换方式。
对于评分卡还有一个特殊的地方,ln(odds) = βX ,相当于是对线性部分做了一个线性变换,所以A可以乘到AβX,B可以平均分到每一个变量,B/变量个数,这就形成了一张评分卡,每个变量每个分箱有其对应的分值,但是对于其他机器学习算法没有这样一个作用。
所以对于机器学习算法,这种变换方式的意义何在?为何不直接对p做线性映射,这里留个坑,以后思考。
20211119补充:
我了解到一种把prob转固定区间的操作,就是把低分和高分的两端进行截断,比如根据bs/bo/PDO的转换方法,转换出来,在开发样本上分数是289到856,这个时候就可以把小于300的赋值为300,大于850的赋值为850,这样这个分数的范围就是[300,850],这种截断影响是比较小的,因为极端分数本身数量不多,所以289-300这段本身就没有更细的区分度了,截断并没有影响。
留言
張貼留言