model ensemble 小结
一、stackingstacking的步骤是:
1、将training data 5折,其中4折训练去预测剩下1折,循环5次,得到model1的训练集特征column
2、1中5次循环有5个模型,分别去预测测试集,5个测试集求平均,得到model1的测试集特征column
3、按照1和2,得到model2的column,model3的column
4、第二层用一个模型去学习由model1、2、3构造的新训练集,并在新测试集打分
stacking的关键是用CV的方式来构造新的训练集,以防止过拟合,并不是用整个训练集训练模型再给整个训练集打分
二、blending
With blending, instead of creating out-of-fold predictions for the train set, you create a small holdout set of say 10% of the train set. The stacker model then trains on this holdout set only.
三、voting
不同的分类器投票,可以加权,重要的分类器1票当3票
四、averaging
这个就是最常用的,加权平均,还有按rank平均,因为各个模型输出prob可能范围差异比较大
还有其他一些变种,因为暂时没实践过,暂时不做记录,可以查阅参考资料获取详情
参考资料:
上面链接是原文,但是已经无法访问,下面两篇是转载和笔记
上面链接是stacking在泰坦尼克问题上实操
留言
張貼留言