2018.03.26
真的是,每个周一都是滑水的状态,我觉得问题还是在于周日睡太晚,而且我觉得周日似乎应该比平时更早睡,周日改成11点半睡觉!比平时再早半小时!
今天主要安排了工作!
继续分析渠道的问题,下了结论,我没办法区分自有产品内部这种比较相近的渠道。
然后查看了进件和放款的样本几个变量的分布差异,这里学习了如何在mysql中随机取样本,进件和放款相关变量上是存在分布差异的,但是我认为对于模型,不是拒绝规则的话,这种修饰程度是有限的,还是反应了最初的客群变量分布!
关于收入负债比、收入、负债等,也仔细看了,确实不够强,我觉得这个是受到噪音干扰所致!
不行了,talkingdata的比赛只有1个月不到,我晚上的时间开始研究talkingdata的数据,其实问题抽象出来非常简单,就是一个极端不平衡的分类预测问题,而且给的维度非常简单,就只有ip/APP/OS/DEVICE/CHANNEL/click_time,我用10W条抽样的样本,简单做了EDA,然后把click_time抽出日、时、星期几,一共8个维度,就丢到catboost里面去跑5 fold CV,由于之前好像是在ipython中学习的catboost,导致现在没有代码参考,我要重新照着文档学习了下catboost
今天学的东西多,晚上的效率也比较高,但是千万节奏不能乱,要稳!
今天主要安排了工作!
继续分析渠道的问题,下了结论,我没办法区分自有产品内部这种比较相近的渠道。
然后查看了进件和放款的样本几个变量的分布差异,这里学习了如何在mysql中随机取样本,进件和放款相关变量上是存在分布差异的,但是我认为对于模型,不是拒绝规则的话,这种修饰程度是有限的,还是反应了最初的客群变量分布!
关于收入负债比、收入、负债等,也仔细看了,确实不够强,我觉得这个是受到噪音干扰所致!
不行了,talkingdata的比赛只有1个月不到,我晚上的时间开始研究talkingdata的数据,其实问题抽象出来非常简单,就是一个极端不平衡的分类预测问题,而且给的维度非常简单,就只有ip/APP/OS/DEVICE/CHANNEL/click_time,我用10W条抽样的样本,简单做了EDA,然后把click_time抽出日、时、星期几,一共8个维度,就丢到catboost里面去跑5 fold CV,由于之前好像是在ipython中学习的catboost,导致现在没有代码参考,我要重新照着文档学习了下catboost
今天学的东西多,晚上的效率也比较高,但是千万节奏不能乱,要稳!
留言
張貼留言