dataframe groupby两个字段拉横

11月 19, 2017

dataframe groupby两个字段拉横

周六按照原计划进行了submission，成绩比CV略差，暂时rank 14，星期天没搞，rank掉到16，逆水行舟，不进则退啊！
周六上午来office，状态并不好，昏昏欲睡，浏览一下kaggle/监控等等
下午和晚上就开始集中突破，把遇到的新知识点小结一下：
1. 对于按某个类别计算count，并不是简单的groupby两个字段，因为groupby两个字段后是竖表，还要想办法拉成横表，但是还有一个问题，比如某个uid只有5个pid，而pid有10种可能取值，这个时候需要10个字段，所以我最后采用了循环筛选的方法，用pid可能的10个值去循环筛选，比如pid=1时按照uid groupby就得到了一个叫做pid_1_count的变量
2. linux上的xgboost比windows上的xgboost快太多了，我不知道为什么
3. 晚上遇到的大多是效率方面的问题，为了达到当日提交的目标，我砍掉了很多变量，但是f_order构造的时候仍然很慢，我没搞懂为什么，从记录数的角度，click还要多一些，只不过click也不快，这样想来，还需要观察一下，也许这click和order的时间是差不多的！
4. 然后抓不同的变量，其中是有一些函数是可以提取的，但是那天为了速度，直接copy&paste，需要把可以复用的逻辑提取出来！
总的来说，下一步就是把现在能想到的想法，100%的实施出来，而且需要提速了，时间这么短，能不能取得好成绩的关键就是能比别人更快的试错，下一步的目标，进top10，第一页有我的名字！
我要抓紧每一点琐碎的时间来干这个事，真的，wow我开始觉得没意思了，可能再也回不去艾泽拉斯了，只能在数据科学的领域里战战战！哪怕一个小时都应该来加班，是值得的！肝他妈的！！！！

搜尋此網誌

Silver Death

dataframe groupby两个字段拉横

留言

張貼留言

熱門文章

把cell从一个notebook复制到另一个notebook

python调用win32api设置窗口位置和大小