dataframe groupby两个字段拉横

周六按照原计划进行了submission,成绩比CV略差,暂时rank 14,星期天没搞,rank掉到16,逆水行舟,不进则退啊!
周六上午来office,状态并不好,昏昏欲睡,浏览一下kaggle/监控等等
下午和晚上就开始集中突破,把遇到的新知识点小结一下:
1. 对于按某个类别计算count,并不是简单的groupby两个字段,因为groupby两个字段后是竖表,还要想办法拉成横表,但是还有一个问题,比如某个uid只有5个pid,而pid有10种可能取值,这个时候需要10个字段,所以我最后采用了循环筛选的方法,用pid可能的10个值去循环筛选,比如pid=1时按照uid groupby就得到了一个叫做pid_1_count的变量
2. linux上的xgboost比windows上的xgboost快太多了,我不知道为什么
3. 晚上遇到的大多是效率方面的问题,为了达到当日提交的目标,我砍掉了很多变量,但是f_order构造的时候仍然很慢,我没搞懂为什么,从记录数的角度,click还要多一些,只不过click也不快,这样想来,还需要观察一下,也许这click和order的时间是差不多的!
4. 然后抓不同的变量,其中是有一些函数是可以提取的,但是那天为了速度,直接copy&paste,需要把可以复用的逻辑提取出来!
总的来说,下一步就是把现在能想到的想法,100%的实施出来,而且需要提速了,时间这么短,能不能取得好成绩的关键就是能比别人更快的试错,下一步的目标,进top10,第一页有我的名字!
我要抓紧每一点琐碎的时间来干这个事,真的,wow我开始觉得没意思了,可能再也回不去艾泽拉斯了,只能在数据科学的领域里战战战!哪怕一个小时都应该来加班,是值得的!肝他妈的!!!!

留言

熱門文章