model ensemble 小结

7月 24, 2022

model ensemble 小结

一、stacking

stacking的步骤是：

1、将training data 5折，其中4折训练去预测剩下1折，循环5次，得到model1的训练集特征column

2、1中5次循环有5个模型，分别去预测测试集，5个测试集求平均，得到model1的测试集特征column

3、按照1和2，得到model2的column，model3的column

4、第二层用一个模型去学习由model1、2、3构造的新训练集，并在新测试集打分

stacking的关键是用CV的方式来构造新的训练集，以防止过拟合，并不是用整个训练集训练模型再给整个训练集打分

二、blending

With blending, instead of creating out-of-fold predictions for the train set, you create a small holdout set of say 10% of the train set. The stacker model then trains on this holdout set only.

三、voting

不同的分类器投票，可以加权，重要的分类器1票当3票

四、averaging

这个就是最常用的，加权平均，还有按rank平均，因为各个模型输出prob可能范围差异比较大

还有其他一些变种，因为暂时没实践过，暂时不做记录，可以查阅参考资料获取详情

参考资料：

https://mlwave.com/kaggle-ensembling-guide/

上面链接是原文，但是已经无法访问，下面两篇是转载和笔记

https://www.cnblogs.com/medsci/articles/9160663.html

https://www.daimajiaoliu.com/daima/479a176a2100407

https://www.kaggle.com/code/arthurtok/introduction-to-ensembling-stacking-in-python

上面链接是stacking在泰坦尼克问题上实操

搜尋此網誌

Silver Death

model ensemble 小结

留言

張貼留言

熱門文章

把cell从一个notebook复制到另一个notebook

python调用win32api设置窗口位置和大小