2018.03.28
昨天主要就是对金额类指标进行分析,到下班的时候我本身都放弃了,我抛出了结论贷款金额没有问题,但是在去吃饭的途中,我突然想到用既然自填收入不准确,用客户的银行流水计算的收入来算PTI,看看和逾期有什么关系,回来后我开始着手这个分析,我发现当时大多数pti都是集中在0.15-0.3,当时计算金额的时候就是优先银行流水的收入来进行计算的,自然会导致pti集中在一个水平,所以0.15以下的很少,100人左右,但是这些pti下的人,的确逾期会低一些,但是之后的pti趋势就很混乱,没什么区隔。我突然发现这个趋势就和我用客户自填收入计算的PTI趋势是类似的,我又倒回去看客户自填pti,虽然趋势很差,但是pti小的的确逾期会低,我发现这是个规律,在群里进行了讨论。
后来老板提出存在分数高低的影响,因为分数好的,系数会大一些,不考虑random_number的情况下,会得到一个更多的贷款额,如果income不变,这个时候pti就会高,但是由于我模型认定他是好人,有可能就存在pti高,但是逾期表现不错的情况,所以我应该同分数段比较,我以前的贷款金额计算绝大多数时间都是用的分段线性函数,分数可能只有按照这个分段来进行分组。还有一点就是当时的贷款金额还受到random_number的影响,有可能分数高,本应贷款金额高,但是有可能random_number的缘故,其实贷款金额并不多,也就说这点随机性也干扰了分析,但是大家相同的随机因素,所以分数高的应该贷款金额还是高一些,总之,可以排除掉高分低分来看一下pti和逾期的关系,但是以前的拉银行流水的客户,人数比较少,如果按照分数分成两组,可能不够,需要把两个时间段合并!
我昨天还有做什么吗?
昨天我还尝试解决catboost cv结果不固定的问题,未能解决。
中午睡觉起来,又状态不好,3点多之前一直滑水,看了一些咨询,看到很多公司的财报,觉得压力更大了
后来老板提出存在分数高低的影响,因为分数好的,系数会大一些,不考虑random_number的情况下,会得到一个更多的贷款额,如果income不变,这个时候pti就会高,但是由于我模型认定他是好人,有可能就存在pti高,但是逾期表现不错的情况,所以我应该同分数段比较,我以前的贷款金额计算绝大多数时间都是用的分段线性函数,分数可能只有按照这个分段来进行分组。还有一点就是当时的贷款金额还受到random_number的影响,有可能分数高,本应贷款金额高,但是有可能random_number的缘故,其实贷款金额并不多,也就说这点随机性也干扰了分析,但是大家相同的随机因素,所以分数高的应该贷款金额还是高一些,总之,可以排除掉高分低分来看一下pti和逾期的关系,但是以前的拉银行流水的客户,人数比较少,如果按照分数分成两组,可能不够,需要把两个时间段合并!
我昨天还有做什么吗?
昨天我还尝试解决catboost cv结果不固定的问题,未能解决。
中午睡觉起来,又状态不好,3点多之前一直滑水,看了一些咨询,看到很多公司的财报,觉得压力更大了
留言
張貼留言