2019.11.04
昨日研究了几个问题:
1.训练集和测试集差距过大的问题
训练集的error并不重要,主要还是应该关注validation上的error,
比如
model A has 95% / 80% training/validation accuracy
model B has 76% / 75% training/validation accuracy
model A 往往在真实环境下,仍然优于model B,虽然model A过拟合了,有时候就是要让model A过拟合才能在validation上达到足够好的效果
2.WOE在CV过程中造成的泄露,以及解决办法
leakage分为两种,label leakage和validation leakage
数据预处理,比如特征标准化就有点类似于woe,每一次循环infolds进行标准化,才没有leakage,但是似乎这样做也存在问题?其实严格地说先在全样本上选变量就是leakage,但是这个也看,用什么方法来筛选变量了,如果像lgb这样,根本就不选变量,只加变量,那也不存在这个问题,但是会不断地调整CV的结果,调整足够多次,就会逼近直接学习的效果,比赛里面的经验是CV的结果比OOT还重要,
1.训练集和测试集差距过大的问题
训练集的error并不重要,主要还是应该关注validation上的error,
比如
model A has 95% / 80% training/validation accuracy
model B has 76% / 75% training/validation accuracy
model A 往往在真实环境下,仍然优于model B,虽然model A过拟合了,有时候就是要让model A过拟合才能在validation上达到足够好的效果
2.WOE在CV过程中造成的泄露,以及解决办法
leakage分为两种,label leakage和validation leakage
数据预处理,比如特征标准化就有点类似于woe,每一次循环infolds进行标准化,才没有leakage,但是似乎这样做也存在问题?其实严格地说先在全样本上选变量就是leakage,但是这个也看,用什么方法来筛选变量了,如果像lgb这样,根本就不选变量,只加变量,那也不存在这个问题,但是会不断地调整CV的结果,调整足够多次,就会逼近直接学习的效果,比赛里面的经验是CV的结果比OOT还重要,
留言
張貼留言