np.where StandardScaler 生活小结

节奏千万不能乱,另外永不放弃,现在基本上就是我一个人战斗了,不要去抱怨别人不加入你,人各有志,不要去抱怨别人不和你讨论,也是人各有志,别人上班上一天疲惫了,为什么还要去思考这些shit呢?别人就想玩玩游戏看看电视乐呵乐呵,人各有志嘛,就好比我当年我对竞赛也提不起兴趣觉得要玩其他的,这太正常不过了!无论如何,走好自己的路!加油!
昨天写完小结,主要看了以前loan default prediction的案例,这个案例雷同的地方是先分类再回归,但是非常受到default cutoff的影响,作者应该也是根据cv结果和lb结果就行了调节,算一个超参,feature extraction基本是无脑构造,再通过corr筛选,然后使用不同的算法,最后做一个线性的ensemble,我后来尝试了作者用corr做feature selection的思想,导致我local CV降低很多,而且lb差得有些离谱,我觉得可能某个地方弄错了,还需要彻底检查一遍!
看了作者的方法吧,不排除当时水平普遍较差,他当初的方法已经不适用现在这个高强度的比赛环境,现在的top pick是xgboost/lgm等。
而且作者用了很多的numpy操作,和现在流行的更上层的封装pandas,也有一定差异,也遇到了很多新的用法,下面做一些记录整理:
1. np.where(x[:,1] >= 1)这种筛选方式返回的是一个含有index的tuple,但这个tuple只有一个元素,所以要np.where(x[:,1]>=1)[0],x[:,1] >= 1本身是一个boolean型的array,而np.where返回是是这个bool型array的index
2. 有现成的对象直接进行standardize,from sklearn import preprocessing,preprocessing.StandardScaler(),(x-μ)/σ,过程分fit和transform
昨天还温习了一些画图的函数
sns.distplot(x,bins,kde=True)直方图,sns.boxplot箱线图,scatter(x,y)散点图

我觉得现在我应该多层次地去迭代开展工作,并行进行,不要阻塞在feature engineering上,这样挫败感太强烈,文献查找,特征工程,项目整理,调参,ensemble,小步快走,快速迭代,把握每天两次的提交机会!加油!永不放弃!
还有一点就是专注,做完一个事情才去看另一个事情,不要受到社交媒体的影响!最好的办法就是关闭社交媒体!
还有就是小结移到每天晚上进行一日一结!
关于锻炼的事情,我觉得早上起来很困难,要不再尝试一下,实在不行我真的要在楼下办卡了!或者回去锻炼,早睡,早上起来工作!再尝试一下吧,改成11点睡觉!
唇膏要坚持使用,爱惜自己的身体!衣服常换洗,不要忘记生活!

留言

熱門文章