数据竞赛的细节

我觉得kaggle这类数据竞赛,需要的是细节,看下来,特征也差不多,算法也差不多,但是我觉得问题就是出在这差不多上,这个差不多可能里面蕴含了很多细节,而在赛后的分享上,如果不是代码开源,很难发现这些细节的不同,而这些细节就决定了成败,因为本身比赛最后的得分,大家都差不多,就是有人抓住了细节

  • 一些算法参数的不同,比如不平衡数据集上,权重参数的设置
  • 训练方法到底是5 folds CV 还是 validation set early stopping
  • validation set的选取,按时间吗?随机吗?
  • 等等
大概总结起来几个方面:
  • 特征工程
  • 算法参数
  • 训练方法
目前NN我觉得是锦上添花的东西,是向金牌和cash冲刺的重要法宝,因为NN和xgb/lgb比起来,具有多样性,所以是很好的融合材料。
上面说的三方面就是基础,NN也受限于这三者,所以基础要打牢,方向要正确,先搞定silver,再冲刺top 10!
但如果要搞CV/NLP类竞赛,还是要深入学习NN,只能说每方面都需要学习啊!

留言

熱門文章