数据竞赛的细节

数据竞赛的细节

我觉得kaggle这类数据竞赛，需要的是细节，看下来，特征也差不多，算法也差不多，但是我觉得问题就是出在这差不多上，这个差不多可能里面蕴含了很多细节，而在赛后的分享上，如果不是代码开源，很难发现这些细节的不同，而这些细节就决定了成败，因为本身比赛最后的得分，大家都差不多，就是有人抓住了细节

一些算法参数的不同，比如不平衡数据集上，权重参数的设置
训练方法到底是5 folds CV 还是 validation set early stopping
validation set的选取，按时间吗？随机吗？
等等

大概总结起来几个方面：

特征工程
算法参数
训练方法

目前NN我觉得是锦上添花的东西，是向金牌和cash冲刺的重要法宝，因为NN和xgb/lgb比起来，具有多样性，所以是很好的融合材料。

上面说的三方面就是基础，NN也受限于这三者，所以基础要打牢，方向要正确，先搞定silver，再冲刺top 10！

但如果要搞CV/NLP类竞赛，还是要深入学习NN，只能说每方面都需要学习啊！

留言