2019.10.28

今天主要就是shap再次探索,其实不去深究原理的话,shap主要就是那几张图表,然后思考为什么lgb出的cv结果auc偏低,标准差偏高,我推测可能是由于两点
1.评分卡的建模方法CV的时候,包含了fold out部分
2.编码的时候没用label encoding的方式进行编码,存在label leakage
我验证了第一点,证实是一个原因,方法是,真正手动80%训练集 woe编码建模,然后在测试集上校验,这个过程很麻烦,我并未重复5轮,但是第一轮,测试结果就很不好
而且我直接用不WOE编码建lr,效果也弱于lgb
第2点,待验证

今天在实验过程中,还顺道更新了一下scorecard建模包


留言

熱門文章