2019.11.04

11月 04, 2019

2019.11.04

昨日研究了几个问题：
1.训练集和测试集差距过大的问题
训练集的error并不重要，主要还是应该关注validation上的error，
比如
model A has 95% / 80% training/validation accuracy
model B has 76% / 75% training/validation accuracy
model A 往往在真实环境下，仍然优于model B，虽然model A过拟合了，有时候就是要让model A过拟合才能在validation上达到足够好的效果

2.WOE在CV过程中造成的泄露，以及解决办法
leakage分为两种，label leakage和validation leakage
数据预处理，比如特征标准化就有点类似于woe，每一次循环infolds进行标准化，才没有leakage，但是似乎这样做也存在问题？其实严格地说先在全样本上选变量就是leakage，但是这个也看，用什么方法来筛选变量了，如果像lgb这样，根本就不选变量，只加变量，那也不存在这个问题，但是会不断地调整CV的结果，调整足够多次，就会逼近直接学习的效果，比赛里面的经验是CV的结果比OOT还重要，

搜尋此網誌

Silver Death

2019.11.04

留言

張貼留言

熱門文章

把cell从一个notebook复制到另一个notebook

python调用win32api设置窗口位置和大小