leakage

leakage分成两类

  1. label leakage
  2. validation leakage
label leakage比如未来因子,比如一些编码方式引入y的信息,likelihood encoding,WOE编码等

validation leakage,比如在验证集上做校验,但是在验证之前已经peek了验证集的信息,比如全部样本上先标准化,再做交叉验证等。
WOE和likelihood encoding同理,应该在inner folds上进行编码,再用这个编码去赋值outer folds,再做预测。
WOE类比过去就要先分组,然后每次CV重算WOE。

这里会产生一个先分组这个时候可能已经用了测试集的信息,但其实严格说选变量就已经掺杂了验证集的信息,所以CV严格意义上讲或多或少都存在leakage,我们能做的就是一定程度上去削减

留言

熱門文章