xgb save load

1. 关于groupby agg自定义custom function效率问题,并没有太好的解决方案,可以用时间堆,还有就是有些变量实际上是没用的,可以从此角度进行精简
2. 我遇到了计算的瓶颈,主要是内存不足,DMatrix转换消耗太多内存,本身CSV在2.8G,但是32G的内存都不够用,有两个解决方案,精简维度,使用阿里云
3. 我用精简后的大约3000个维度进行建模,local CV很低,但是lb score并没有提升,难道是过拟合了?把树的数目从142降到90仍然差不多
4. xgb的存储,model.save_model('0001.model'),load的时候先生成一个model结构,再load,model = xgb.Booster({'nthread':4}),model.load_model('0001.model')
5. python的文本操作很久没用了,f = open('xxxx','a'); f.write(string); f.close(),linux的换行符是否不是'\n'
6. DataFrame有一些精简方案,大概思路就是判断数值类型,用更新的dtype去存储,但是当我7000+维度的时候,我发现这个遍历转换都会花很多时间

说几点比赛中应该注意的地方:
1. 应该进行版本控制,如果不版本控制,想回到某个版本去做ensemble,会发现回不去了
2. 可以用一个记事本去记录自己那些闪现的idea

留言

熱門文章