2018.02.09
上周五主要根据同事P2 3.0的模型,提出了一些问题,进行了相关的分析!
1. 一个是重要变量和我的主要变量的相关性问题,从这次的结果中发有两家公司的多头类变量,虽然收集原理类似,但是实际pearson相关系数算下来并不大,和我上次看的不太一样!
2. 期间我弄错了一个P2 3.0一个变量的定义,那个变量是互联网门户平台的注册数,并不是借款平台的注册数,有一点也可以反映出来,就是这个次数,越大逾期率越低,且和真正的多头指标是呈负相关的!
3. 所以P2在独立性上应该是可以的,从测试集的结果来看,只要没过度去拟合,应该未来会得到一个不错的结果
4. 然后还有一个问题就是,我发现,现在在抓取5.25-7.16的房贷客户,我的decile1逾期会比之前光是移动的要低,有些因变量定义下还低很多,我就区分了运营商,果然发现我decile1中移动比较差,联通比较好,但是10个decile拉通了看,并没有这个规律,只有在我的decile1下比较明显!而且除了5.25-7.16这段样本,在7.17之后的样本上也在一定程度上呈现出了这个pattern,原因不明,而且不好应用,应用不外乎两种方案吧,一个就是+分,但是如果加分相当于就是说把以前联通decile2的人放到了decile1,但是从matrix上观察,decile2的联通逾期并不低,至少不稳定吧,所以这种应用方案得不到作证,比如把移动的再往前划一点,逾期率也不一定能得到下降;另外一种应用方案就是外挂,不同的运营商用不同的decile,这个方法的问题依然是同第一种,没办法作证!还有一种方案就是把这个指标用于二阶段模型的变量,在下一版进行考虑,但是下一版我的模型变了,这个pattern可能就不稳定了,那就下一版再说吧,现在这个问题就暂时先划一个句号
5. 有人提出联通的虚拟号段多,按理说应该更坏才对,我又去查看了虚拟号段相关的问题,百度百科搜"手机号码"就可以得到不同运营商的虚拟号段。我后来发现放款用户中根本就没有虚拟号码,我看了下逻辑,程序逻辑没有一个地方专门针对虚拟号段(我现在想起了,我当年是对合作方进行判断的时候,除了6个月以下的在网时长会拒,返回NULL的或者没有结果返回的也会拒绝,所以当时拒绝的就是在网时长不足6个月和虚拟号码),但是2A确实没有一个逻辑去拒绝虚拟运营商,在网时长只是我模型中的一个变量,(现在虚拟运营商report中会不支持,直接在对应的result中并没有结果),虚拟运营商会得到一个比较差的值,但是从理论上讲虚拟运营商是可以过2A模型的,从实际上来讲不好过的地方应该是四要素
留言
張貼留言