np.where StandardScaler 生活小结

11月 30, 2017

np.where StandardScaler 生活小结

节奏千万不能乱，另外永不放弃，现在基本上就是我一个人战斗了，不要去抱怨别人不加入你，人各有志，不要去抱怨别人不和你讨论，也是人各有志，别人上班上一天疲惫了，为什么还要去思考这些shit呢？别人就想玩玩游戏看看电视乐呵乐呵，人各有志嘛，就好比我当年我对竞赛也提不起兴趣觉得要玩其他的，这太正常不过了！无论如何，走好自己的路！加油！
昨天写完小结，主要看了以前loan default prediction的案例，这个案例雷同的地方是先分类再回归，但是非常受到default cutoff的影响，作者应该也是根据cv结果和lb结果就行了调节，算一个超参，feature extraction基本是无脑构造，再通过corr筛选，然后使用不同的算法，最后做一个线性的ensemble，我后来尝试了作者用corr做feature selection的思想，导致我local CV降低很多，而且lb差得有些离谱，我觉得可能某个地方弄错了，还需要彻底检查一遍！
看了作者的方法吧，不排除当时水平普遍较差，他当初的方法已经不适用现在这个高强度的比赛环境，现在的top pick是xgboost/lgm等。
而且作者用了很多的numpy操作，和现在流行的更上层的封装pandas，也有一定差异，也遇到了很多新的用法，下面做一些记录整理：
1. np.where(x[:,1] >= 1)这种筛选方式返回的是一个含有index的tuple，但这个tuple只有一个元素，所以要np.where(x[:,1]>=1)[0]，x[:,1] >= 1本身是一个boolean型的array，而np.where返回是是这个bool型array的index
2. 有现成的对象直接进行standardize，from sklearn import preprocessing，preprocessing.StandardScaler()，(x-μ)/σ，过程分fit和transform
昨天还温习了一些画图的函数
sns.distplot(x,bins,kde=True)直方图，sns.boxplot箱线图，scatter(x,y)散点图

我觉得现在我应该多层次地去迭代开展工作，并行进行，不要阻塞在feature engineering上，这样挫败感太强烈，文献查找，特征工程，项目整理，调参，ensemble，小步快走，快速迭代，把握每天两次的提交机会！加油！永不放弃！
还有一点就是专注，做完一个事情才去看另一个事情，不要受到社交媒体的影响！最好的办法就是关闭社交媒体！
还有就是小结移到每天晚上进行一日一结！
关于锻炼的事情，我觉得早上起来很困难，要不再尝试一下，实在不行我真的要在楼下办卡了！或者回去锻炼，早睡，早上起来工作！再尝试一下吧，改成11点睡觉！
唇膏要坚持使用，爱惜自己的身体！衣服常换洗，不要忘记生活！

搜尋此網誌

Silver Death

np.where StandardScaler 生活小结

留言

張貼留言

熱門文章

把cell从一个notebook复制到另一个notebook

python调用win32api设置窗口位置和大小